OpenAI o1 e o1-mini chegam como IAs que lidam com questões STEM melhor do que os modelos anteriores

Chegam o OpenAI o1 e o1-mini - IA que raciocina melhor em questões STEM do que os modelos anteriores. (Fonte da imagem: Gerado por IA, Dall-E 3)

O OpenAI o1 e o1-mini chegaram, e esses LLMs de IA têm um desempenho muito melhor em problemas e tarefas de codificação, matemática e ciências do que os modelos anteriores, como o GPT-4o, pois levam mais tempo para pensar. Os modelos OpenAI o1 não podem navegar na Web nem aceitar o upload de arquivos e imagens, o que constitui sua principal limitação.

David Chien (traduzido por Ninh Duy), Publicado 09/16/2024 🇺🇸 🇫🇷 ...

AI Software

O OpenAI o1 e o1-mini chegaram. Esses LLMs de IA têm um desempenho muito melhor em problemas e tarefas de codificação, matemática e ciências do que os modelos anteriores, como o GPT-4o, pois levam mais tempo para pensar.

Problemas complexos em STEM tendem a exigir mais do que uma rápida pesquisa on-line para obter as respostas corretas. Ao dar à IA do o1 mais tempo para pensar, a IA pode raciocinar com mais cuidado e precisão. O modelo o1-mini foi ajustado especificamente para responder a perguntas STEM com maior velocidade e menor demanda de recursos do computador, e é notavelmente melhor em codificação do que o modelo o1.

Em uma série de exames padronizados de AP e testes STEM para LLMs, os modelos o1 apresentam alta precisão. Especificamente, nos testes AP Calculus, AP Chemistry, AP Physics 2, LSAT e SAT evidence-based reading & writing, os modelos o1 têm desempenho igual ou superior ao nível B (~80% ou mais). Os modelos respondem com precisão no nível A em questões de física de nível de doutorado, no nível B em questões de matemática do American Invitational Mathematics Examination 2024 e no nível B alto em problemas de codificação do Codeforces. Como o1 foi ajustado para responder a perguntas STEM, seu desempenho em AP English Language e AP English Literature está no nível C ou abaixo dele.

É interessante notar que, enquanto o GPT-4o fica perplexo com o desafio criptográfico de decodificar "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz" quando a dica "oyfjdnisdr rtqwainr acxz mynzbhhx" significa "Pense passo a passo", o o1 não teve problemas para pensar no problema e chegar à resposta correta "Há três r's em morango". Esse novo poder encantará os criptógrafos amadores em casa, bem como a NSA.

Os malfeitores mais reservados gostarão de saber que, embora os modelos o1 sem censura possam dar respostas preocupantes, a OpenAI neutralizou esses modelos para o lançamento. Os modelos o1 foram testados para resistir a responder a perguntas sobre a fabricação de armas biológicas, produção de imagens indecentes, desbloqueio de si mesmo e assédio e ameaça. Infelizmente, os modelos o1 da OpenAI permanecem tendenciosos em termos de gênero e raça quando testados, apesar dos esforços de ajuste.

Os usuários do ChatGPT Plus e Team, juntamente com os desenvolvedores de nível 5 de uso da API, têm acesso aos modelos o1 imediatamente, e os usuários do ChatGPT Edu e Enterprise terão acesso na semana de 16 de setembro. Os usuários do ChatGPT Free terão acesso ao o1-mini em um futuro próximo. Os modelos o1 não podem navegar na Web ou aceitar o upload de arquivos e imagens para responder a perguntas, portanto, a OpenAI recomenda que os usuários continuem usando seus modelos GPT-4o para perguntas gerais.

Os usuários que desejam fazer perguntas sobre IA agora têm uma ampla gama de modelos LLM capazes de interagir, além dos modelos da OpenAIincluindo Anthropic Claude, Microsoft CoPilot, Google Geminie X Grok. Cada IA tem vantagens específicas, portanto, vale a pena testar vários modelos de IA para encontrar um que melhor atenda às necessidades individuais. Algumas dessas IAs estão incorporadas em óculos inteligentes (como estes da Amazon) e gravadores de voz (como este da Amazon), e alguns robôs humanoides autônomos que estão por vir usam IA proprietária para cozinhar e limpar.

Tanto o OpenAI o1 quanto o o1-mini apresentam um desempenho ligeiramente pior em tarefas de escrita em comparação com o GPT-4o, mas muito melhor em tarefas técnicas como matemática ou programação. (Fonte da imagem: OpenAI)

A série o1 da OpenAI pode responder corretamente a perguntas mais difíceis que a GPT-4o não consegue, mas apenas levando muito mais tempo para responder. (Fonte da imagem: OpenAI)

Ao programar o OpenAI o1 para pensar mais antes de responder, o AI LLM é capaz de responder a perguntas difíceis melhor do que os modelos anteriores, incluindo o GPT-4o. (Fonte da imagem: OpenAI)

Antes de ser castrado para lançamento, o OpenAI o1-preview-pre-mitigation adorava ser travesso. (Fonte da imagem: OpenAI)

Os modelos o1 da OpenAI permanecem tendenciosos em termos de gênero e raça mesmo após o ajuste. (Fonte da imagem: OpenAI)

Embora a série o1 da OpenAI seja muito melhor na criação de instruções para riscos biológicos, as versões de lançamento têm esses recursos neutralizados. (Fonte da imagem: OpenAI)

A OpenAI atrapalha os caçadores de emprego que usam IA durante as entrevistas com programadores, diminuindo a capacidade do o1-mini e do o1-preview de passar em um conjunto de perguntas do Engenheiro de Pesquisa da entrevista da OpenAI na primeira tentativa. (Fonte da imagem: OpenAI)

Fonte(s)

Modelos da OpenAI o1, Comunicado de imprensa do OpenAI o1

▶ ▼ Comunicado à imprensa

12 de setembro de 2024

Apresentando o OpenAI o1-preview

Uma nova série de modelos de raciocínio para resolver problemas difíceis. Disponível a partir de 9.12

Desenvolvemos uma nova série de modelos de IA projetados para passar mais tempo pensando antes de responder. Eles podem raciocinar em tarefas complexas e resolver problemas mais difíceis do que os modelos anteriores em ciências, codificação e matemática.

Hoje, estamos lançando o primeiro dessa série no ChatGPT e em nossa API. Esta é uma prévia e esperamos atualizações e aprimoramentos regulares. Juntamente com esta versão, também estamos incluindo avaliações para a próxima atualização, atualmente em desenvolvimento.

Como isso funciona

Treinamos esses modelos para que passem mais tempo pensando nos problemas antes de responder, como uma pessoa faria. Por meio do treinamento, eles aprendem a refinar seu processo de raciocínio, a tentar estratégias diferentes e a reconhecer seus erros.

Em nossos testes, a próxima atualização do modelo tem desempenho semelhante ao de estudantes de doutorado em tarefas desafiadoras de benchmark em física, química e biologia. Também descobrimos que ele se destaca em matemática e codificação. Em um exame de qualificação para a Olimpíada Internacional de Matemática (IMO), o GPT-4o resolveu corretamente apenas 13% dos problemas, enquanto o modelo de raciocínio obteve 83%. Suas habilidades de codificação foram avaliadas em concursos e atingiram o 89º percentil em competições do Codeforces. O senhor pode ler mais sobre isso em nosso post sobre pesquisa técnica.

Como um modelo inicial, ele ainda não tem muitos dos recursos que tornam o ChatGPT útil, como navegar na Web em busca de informações e carregar arquivos e imagens. Para muitos casos comuns, o GPT-4o será mais capaz no curto prazo.

Mas para tarefas de raciocínio complexas, esse é um avanço significativo e representa um novo nível de capacidade de IA. Diante disso, estamos redefinindo o contador de volta para 1 e nomeando essa série como OpenAI o1.

Segurança

Como parte do desenvolvimento desses novos modelos, criamos uma nova abordagem de treinamento de segurança que aproveita seus recursos de raciocínio para fazê-los aderir às diretrizes de segurança e alinhamento. Por ser capaz de raciocinar sobre nossas regras de segurança no contexto, ele pode aplicá-las com mais eficiência.

Uma forma de medir a segurança é testar se o nosso modelo continua a seguir suas regras de segurança quando um usuário tenta contorná-las (conhecido como "jailbreaking"). Em um de nossos testes mais difíceis de jailbreak, o GPT-4o obteve 22 pontos (em uma escala de 0 a 100), enquanto nosso modelo o1-preview obteve 84 pontos. O senhor pode ler mais sobre isso no cartão do sistema e em nosso post de pesquisa.

Para corresponder aos novos recursos desses modelos, reforçamos nosso trabalho de segurança, governança interna e colaboração com o governo federal. Isso inclui testes e avaliações rigorosos usando nossa Estrutura de Preparação(abre em uma nova janela), a melhor equipe vermelha da categoria e processos de revisão em nível de diretoria, inclusive pelo nosso Comitê de Segurança e Proteção.

Para avançar em nosso compromisso com a segurança da IA, formalizamos recentemente acordos com os institutos de segurança de IA dos EUA e do Reino Unido. Começamos a operacionalizar esses acordos, inclusive concedendo aos institutos acesso antecipado a uma versão de pesquisa desse modelo. Esse foi um primeiro passo importante em nossa parceria, ajudando a estabelecer um processo de pesquisa, avaliação e teste de modelos futuros antes e depois de seu lançamento público.

A quem se destina

Esses recursos de raciocínio aprimorados podem ser particularmente úteis se o senhor estiver lidando com problemas complexos em ciência, codificação, matemática e campos semelhantes. Por exemplo, o o1 pode ser usado por pesquisadores da área de saúde para anotar dados de sequenciamento de células, por físicos para gerar fórmulas matemáticas complicadas necessárias para a óptica quântica e por desenvolvedores de todas as áreas para criar e executar fluxos de trabalho de várias etapas.

OpenAI o1-mini

A série o1 é excelente na geração e depuração precisas de códigos complexos. Para oferecer uma solução mais eficiente para os desenvolvedores, também estamos lançando o OpenAI o1-mini, um modelo de raciocínio mais rápido e mais barato que é particularmente eficaz na codificação. Por ser um modelo menor, o o1-mini é 80% mais barato do que o o1-preview, o que o torna um modelo poderoso e econômico para aplicativos que exigem raciocínio, mas não um amplo conhecimento do mundo.

Como usar o OpenAI o1

Os usuários do ChatGPT Plus e Team poderão acessar os modelos o1 no ChatGPT a partir de hoje. Tanto o o1-preview quanto o o1-mini podem ser selecionados manualmente no seletor de modelos e, no lançamento, os limites de taxa semanal serão de 30 mensagens para o o1-preview e 50 para o o1-mini. Estamos trabalhando para aumentar essas taxas e permitir que o ChatGPT escolha automaticamente o modelo certo para um determinado prompt.

Uma imagem do novo menu suspenso do ChatGPT que exibe a nova opção de modelo "o1-preview" sobre um fundo abstrato amarelo e azul brilhante

Os usuários do ChatGPT Enterprise e Edu terão acesso a ambos os modelos a partir da próxima semana.

Os desenvolvedores que se qualificam para o nível 5 de uso da API(abre em uma nova janela) podem começar a criar protótipos com ambos os modelos na API hoje com um limite de taxa de 20 RPM. Estamos trabalhando para aumentar esses limites após testes adicionais. Atualmente, a API para esses modelos não inclui chamadas de função, streaming, suporte para mensagens do sistema e outros recursos. Para começar, consulte a documentação da API(abre em uma nova janela).

Também estamos planejando oferecer acesso ao o1-mini a todos os usuários do ChatGPT Free.

O que vem a seguir

Esta é uma prévia desses modelos de raciocínio no ChatGPT e na API. Além das atualizações dos modelos, esperamos adicionar navegação, upload de arquivos e imagens e outros recursos para torná-los mais úteis para todos.

Também planejamos continuar desenvolvendo e lançando modelos em nossa série GPT, além da nova série OpenAI o1.

Fonte(s)

Artigos Relacionados