OpenAI o1 e o1-mini chegam como IAs que lidam com questões STEM melhor do que os modelos anteriores
O OpenAI o1 e o1-mini chegaram. Esses LLMs de IA têm um desempenho muito melhor em problemas e tarefas de codificação, matemática e ciências do que os modelos anteriores, como o GPT-4o, pois levam mais tempo para pensar.
Problemas complexos em STEM tendem a exigir mais do que uma rápida pesquisa on-line para obter as respostas corretas. Ao dar à IA do o1 mais tempo para pensar, a IA pode raciocinar com mais cuidado e precisão. O modelo o1-mini foi ajustado especificamente para responder a perguntas STEM com maior velocidade e menor demanda de recursos do computador, e é notavelmente melhor em codificação do que o modelo o1.
Em uma série de exames padronizados de AP e testes STEM para LLMs, os modelos o1 apresentam alta precisão. Especificamente, nos testes AP Calculus, AP Chemistry, AP Physics 2, LSAT e SAT evidence-based reading & writing, os modelos o1 têm desempenho igual ou superior ao nível B (~80% ou mais). Os modelos respondem com precisão no nível A em questões de física de nível de doutorado, no nível B em questões de matemática do American Invitational Mathematics Examination 2024 e no nível B alto em problemas de codificação do Codeforces. Como o1 foi ajustado para responder a perguntas STEM, seu desempenho em AP English Language e AP English Literature está no nível C ou abaixo dele.
É interessante notar que, enquanto o GPT-4o fica perplexo com o desafio criptográfico de decodificar "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz" quando a dica "oyfjdnisdr rtqwainr acxz mynzbhhx" significa "Pense passo a passo", o o1 não teve problemas para pensar no problema e chegar à resposta correta "Há três r's em morango". Esse novo poder encantará os criptógrafos amadores em casa, bem como a NSA.
Os malfeitores mais reservados gostarão de saber que, embora os modelos o1 sem censura possam dar respostas preocupantes, a OpenAI neutralizou esses modelos para o lançamento. Os modelos o1 foram testados para resistir a responder a perguntas sobre a fabricação de armas biológicas, produção de imagens indecentes, desbloqueio de si mesmo e assédio e ameaça. Infelizmente, os modelos o1 da OpenAI permanecem tendenciosos em termos de gênero e raça quando testados, apesar dos esforços de ajuste.
Os usuários do ChatGPT Plus e Team, juntamente com os desenvolvedores de nível 5 de uso da API, têm acesso aos modelos o1 imediatamente, e os usuários do ChatGPT Edu e Enterprise terão acesso na semana de 16 de setembro. Os usuários do ChatGPT Free terão acesso ao o1-mini em um futuro próximo. Os modelos o1 não podem navegar na Web ou aceitar o upload de arquivos e imagens para responder a perguntas, portanto, a OpenAI recomenda que os usuários continuem usando seus modelos GPT-4o para perguntas gerais.
Os usuários que desejam fazer perguntas sobre IA agora têm uma ampla gama de modelos LLM capazes de interagir, além dos modelos da OpenAIincluindo Anthropic Claude, Microsoft CoPilot, Google Geminie X Grok. Cada IA tem vantagens específicas, portanto, vale a pena testar vários modelos de IA para encontrar um que melhor atenda às necessidades individuais. Algumas dessas IAs estão incorporadas em óculos inteligentes(como estes da Amazon) e gravadores de voz(como este da Amazon), e alguns robôs humanoides autônomos que estão por vir usam IA proprietária para cozinhar e limpar.
12 de setembro de 2024
Apresentando o OpenAI o1-preview
Uma nova série de modelos de raciocínio para resolver problemas difíceis. Disponível a partir de 9.12
Desenvolvemos uma nova série de modelos de IA projetados para passar mais tempo pensando antes de responder. Eles podem raciocinar em tarefas complexas e resolver problemas mais difíceis do que os modelos anteriores em ciências, codificação e matemática.
Hoje, estamos lançando o primeiro dessa série no ChatGPT e em nossa API. Esta é uma prévia e esperamos atualizações e aprimoramentos regulares. Juntamente com esta versão, também estamos incluindo avaliações para a próxima atualização, atualmente em desenvolvimento.
Como isso funciona
Treinamos esses modelos para que passem mais tempo pensando nos problemas antes de responder, como uma pessoa faria. Por meio do treinamento, eles aprendem a refinar seu processo de raciocínio, a tentar estratégias diferentes e a reconhecer seus erros.
Em nossos testes, a próxima atualização do modelo tem desempenho semelhante ao de estudantes de doutorado em tarefas desafiadoras de benchmark em física, química e biologia. Também descobrimos que ele se destaca em matemática e codificação. Em um exame de qualificação para a Olimpíada Internacional de Matemática (IMO), o GPT-4o resolveu corretamente apenas 13% dos problemas, enquanto o modelo de raciocínio obteve 83%. Suas habilidades de codificação foram avaliadas em concursos e atingiram o 89º percentil em competições do Codeforces. O senhor pode ler mais sobre isso em nosso post sobre pesquisa técnica.
Como um modelo inicial, ele ainda não tem muitos dos recursos que tornam o ChatGPT útil, como navegar na Web em busca de informações e carregar arquivos e imagens. Para muitos casos comuns, o GPT-4o será mais capaz no curto prazo.
Mas para tarefas de raciocínio complexas, esse é um avanço significativo e representa um novo nível de capacidade de IA. Diante disso, estamos redefinindo o contador de volta para 1 e nomeando essa série como OpenAI o1.
Segurança
Como parte do desenvolvimento desses novos modelos, criamos uma nova abordagem de treinamento de segurança que aproveita seus recursos de raciocínio para fazê-los aderir às diretrizes de segurança e alinhamento. Por ser capaz de raciocinar sobre nossas regras de segurança no contexto, ele pode aplicá-las com mais eficiência.
Uma forma de medir a segurança é testar se o nosso modelo continua a seguir suas regras de segurança quando um usuário tenta contorná-las (conhecido como "jailbreaking"). Em um de nossos testes mais difíceis de jailbreak, o GPT-4o obteve 22 pontos (em uma escala de 0 a 100), enquanto nosso modelo o1-preview obteve 84 pontos. O senhor pode ler mais sobre isso no cartão do sistema e em nosso post de pesquisa.
Para corresponder aos novos recursos desses modelos, reforçamos nosso trabalho de segurança, governança interna e colaboração com o governo federal. Isso inclui testes e avaliações rigorosos usando nossa Estrutura de Preparação(abre em uma nova janela), a melhor equipe vermelha da categoria e processos de revisão em nível de diretoria, inclusive pelo nosso Comitê de Segurança e Proteção.
Para avançar em nosso compromisso com a segurança da IA, formalizamos recentemente acordos com os institutos de segurança de IA dos EUA e do Reino Unido. Começamos a operacionalizar esses acordos, inclusive concedendo aos institutos acesso antecipado a uma versão de pesquisa desse modelo. Esse foi um primeiro passo importante em nossa parceria, ajudando a estabelecer um processo de pesquisa, avaliação e teste de modelos futuros antes e depois de seu lançamento público.
A quem se destina
Esses recursos de raciocínio aprimorados podem ser particularmente úteis se o senhor estiver lidando com problemas complexos em ciência, codificação, matemática e campos semelhantes. Por exemplo, o o1 pode ser usado por pesquisadores da área de saúde para anotar dados de sequenciamento de células, por físicos para gerar fórmulas matemáticas complicadas necessárias para a óptica quântica e por desenvolvedores de todas as áreas para criar e executar fluxos de trabalho de várias etapas.
OpenAI o1-mini
A série o1 é excelente na geração e depuração precisas de códigos complexos. Para oferecer uma solução mais eficiente para os desenvolvedores, também estamos lançando o OpenAI o1-mini, um modelo de raciocínio mais rápido e mais barato que é particularmente eficaz na codificação. Por ser um modelo menor, o o1-mini é 80% mais barato do que o o1-preview, o que o torna um modelo poderoso e econômico para aplicativos que exigem raciocínio, mas não um amplo conhecimento do mundo.
Como usar o OpenAI o1
Os usuários do ChatGPT Plus e Team poderão acessar os modelos o1 no ChatGPT a partir de hoje. Tanto o o1-preview quanto o o1-mini podem ser selecionados manualmente no seletor de modelos e, no lançamento, os limites de taxa semanal serão de 30 mensagens para o o1-preview e 50 para o o1-mini. Estamos trabalhando para aumentar essas taxas e permitir que o ChatGPT escolha automaticamente o modelo certo para um determinado prompt.
Uma imagem do novo menu suspenso do ChatGPT que exibe a nova opção de modelo "o1-preview" sobre um fundo abstrato amarelo e azul brilhante
Os usuários do ChatGPT Enterprise e Edu terão acesso a ambos os modelos a partir da próxima semana.
Os desenvolvedores que se qualificam para o nível 5 de uso da API(abre em uma nova janela) podem começar a criar protótipos com ambos os modelos na API hoje com um limite de taxa de 20 RPM. Estamos trabalhando para aumentar esses limites após testes adicionais. Atualmente, a API para esses modelos não inclui chamadas de função, streaming, suporte para mensagens do sistema e outros recursos. Para começar, consulte a documentação da API(abre em uma nova janela).
Também estamos planejando oferecer acesso ao o1-mini a todos os usuários do ChatGPT Free.
O que vem a seguir
Esta é uma prévia desses modelos de raciocínio no ChatGPT e na API. Além das atualizações dos modelos, esperamos adicionar navegação, upload de arquivos e imagens e outros recursos para torná-los mais úteis para todos.
Também planejamos continuar desenvolvendo e lançando modelos em nossa série GPT, além da nova série OpenAI o1.
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros