OpenAI lança o3-mini AI mais inteligente com acesso gratuito ao ChatGPT

A OpenAI revela o LLM de IA o3-mini mais rápido que supera os modelos o1-mini anteriores. (Fonte da imagem: AI-generated by Dall-E 3)

O mais recente modelo de linguagem grande o3-mini da OpenAI é mais rápido e mais inteligente do que o antecessor o1-mini. O modelo está disponível para uso gratuito por todos os titulares de contas do ChatGPT.

David Chien (traduzido por Ninh Duy), Publicado 02/01/2025 🇺🇸 🇫🇷 ...

AI Launch Software

A OpenAI revelou seu mais recente modelo de linguagem grande de IA, o3-mini, que é mais rápido e melhor do que seu antecessor o1-mini no fornecimento de respostas precisas. Esse modelo é o primeiro LLM de raciocínio pequeno da empresa, disponível para uso público gratuito por todos os titulares de contas do ChatGPT hoje.

O modelo o3-mini pode ser executado usando três níveis de esforço de raciocínio - baixo, médio e alto. Qualquer pessoa com uma conta gratuita do ChatGPT pode executar o o3-mini gratuitamente no nível de raciocínio médio, enquanto os titulares de contas pagas podem escolher os níveis de raciocínio baixo ou alto. Os usuários pagos do ChatGPT Plus, Team e Pro têm acesso imediato ao o3-mini hoje, enquanto os usuários Enterprise devem esperar até fevereiro. Os programadores que desejam criar aplicativos de ponta com a API o3-mini da OpenAI podem ler como fazer isso com este livro na Amazon.

Em geral, o o3-mini, quando definido para o modo de raciocínio médio ou alto, supera o o1-mini em benchmarks padronizados de IA, incluindo aqueles que exigem que a IA raciocine sobre os problemas. Quando definido para o modo de raciocínio alto, o o3-mini também consegue superar o modelo maior o1 em alguns benchmarks, mas não tem a capacidade do o1 de ver imagens e processar dados visuais.

Notavelmente, o o3-mini fornece respostas 24%, ou cerca de 2,46 segundos, mais rápidas que o o1-mini. Isso ajuda a reduzir o tempo de espera para que o ChatGPT forneça respostas e as emissões de carbono produzidas pelos computadores que executam o o3-mini. Embora mais rápido, os hackers ficarão desapontados com o o3-mini porque sua capacidade de ser usado para ataques de segurança cibernética foi bastante reduzida.

O OpenAI o3-mini configurado para o modo de raciocínio elevado supera o desempenho dos antecessores do o1. (Fonte da imagem: Notebookcheck.net)

Fonte(s)

Comunicado à imprensa da OpenAI, Placa de sistema OpenAI o3-mini

▶ ▼ Comunicado à imprensa

31 de janeiro de 2025

OpenAI o3-mini

Ultrapassando a fronteira do raciocínio econômico.

Estamos lançando o OpenAI o3-mini, o modelo mais novo e econômico da nossa série de raciocínio, disponível no ChatGPT e na API hoje. Previsto para dezembro de 2024, esse modelo avançado e rápido ultrapassa os limites do que os modelos pequenos podem alcançar, fornecendo recursos STEM excepcionais - com força especial em ciências, matemática e codificação -, tudo isso mantendo o baixo custo e a latência reduzida do OpenAI o1-mini.

O OpenAI o3-mini é nosso primeiro modelo de raciocínio pequeno que oferece suporte a recursos de desenvolvedor altamente solicitados, incluindo chamada de função(abre em uma nova janela), saídas estruturadas(abre em uma nova janela) e mensagens de desenvolvedor(abre em uma nova janela), tornando-o pronto para produção desde o início. Assim como o OpenAI o1-mini e o OpenAI o1-preview, o o3-mini será compatível com streaming(abre em uma nova janela). Além disso, os desenvolvedores podem escolher entre três opções de esforço de raciocínio(abre em uma nova janela) - baixo, médio e alto - para otimizar seus casos de uso específicos. Essa flexibilidade permite que a o3-mini "pense mais" ao enfrentar desafios complexos ou priorize a velocidade quando a latência for uma preocupação. A o3-mini não oferece suporte a recursos de visão, portanto, os desenvolvedores devem continuar usando o OpenAI o1 para tarefas de raciocínio visual. A o3-mini está sendo implementada na API de conclusões de bate-papo, na API de assistentes e na API de lote a partir de hoje para selecionar desenvolvedores nos níveis de uso da API 3-5(abre em uma nova janela).

Os usuários do ChatGPT Plus, Team e Pro podem acessar o OpenAI o3-mini a partir de hoje, com acesso Enterprise em fevereiro. O o3-mini substituirá o OpenAI o1-mini no seletor de modelos, oferecendo limites de taxa mais altos e menor latência, o que o torna uma opção atraente para tarefas de codificação, STEM e resolução de problemas lógicos. Como parte dessa atualização, estamos triplicando o limite de taxa para usuários Plus e Team, de 50 mensagens por dia com o1-mini para 150 mensagens por dia com o3-mini. Além disso, o o3-mini agora trabalha com pesquisa para encontrar respostas atualizadas com links para fontes relevantes da Web. Esse é um protótipo inicial, pois estamos trabalhando para integrar a pesquisa em nossos modelos de raciocínio.

A partir de hoje, os usuários do plano gratuito também podem experimentar o OpenAI o3-mini selecionando 'Reason' no compositor de mensagens ou regenerando uma resposta. Essa é a primeira vez que um modelo de raciocínio é disponibilizado para usuários gratuitos no ChatGPT.

Enquanto o OpenAI o1 continua sendo nosso modelo de raciocínio de conhecimento geral mais amplo, o OpenAI o3-mini oferece uma alternativa especializada para domínios técnicos que exigem precisão e velocidade. No ChatGPT, o o3-mini usa um esforço de raciocínio médio para oferecer uma compensação equilibrada entre velocidade e precisão. Todos os usuários pagos também terão a opção de selecionar o3-mini-high no seletor de modelos para uma versão de inteligência mais alta que leva um pouco mais de tempo para gerar respostas. Os usuários profissionais terão acesso ilimitado ao o3-mini e ao o3-mini-high.

Rápido, avançado e otimizado para raciocínio STEM

Semelhante ao seu antecessor OpenAI o1, o OpenAI o3-mini foi otimizado para o raciocínio STEM. O o3-mini com esforço de raciocínio médio iguala o desempenho do o1 em matemática, codificação e ciências, ao mesmo tempo em que fornece respostas mais rápidas. As avaliações feitas por testadores especializados mostraram que a o3-mini produz respostas mais precisas e claras, com habilidades de raciocínio mais fortes, do que a OpenAI o1-mini. Os testadores preferiram as respostas da o3-mini à o1-mini 56% das vezes e observaram uma redução de 39% nos principais erros em perguntas difíceis do mundo real. Com esforço de raciocínio médio, o o3-mini iguala o desempenho do o1 em algumas das avaliações de raciocínio e inteligência mais desafiadoras, incluindo AIME e GPQA.

Matemática de competição (AIME 2024)

O gráfico de barras compara a precisão das perguntas de matemática da competição AIME 2024 entre os modelos de IA. Os modelos mais antigos (cinza) têm pontuação mais baixa, enquanto os mais novos (amarelo) melhoram. o "o3-mini (high)" atinge a maior precisão, 83,6%, mostrando um progresso significativo.

Matemática: Com baixo esforço de raciocínio, o OpenAI o3-mini atinge um desempenho comparável ao do OpenAI o1-mini, enquanto com esforço médio, o3-mini atinge um desempenho comparável ao do o1. Enquanto isso, com alto esforço de raciocínio, o3-mini supera tanto o OpenAI o1-mini quanto o OpenAI o1, em que as regiões sombreadas em cinza mostram o desempenho do voto majoritário (consenso) com 64 amostras.

Perguntas científicas em nível de doutorado (GPQA Diamond)

O gráfico de barras compara a precisão das perguntas científicas de nível de doutorado (GPQA Diamond) entre os modelos de IA. Os modelos mais antigos (cinza) têm desempenho inferior, enquanto os mais novos (amarelo) melhoram. o "o3-mini (high)" atinge 77,0% de precisão, mostrando um progresso notável em relação às versões anteriores.

Ciência em nível de doutorado: Em questões de biologia, química e física em nível de doutorado, com baixo esforço de raciocínio, o OpenAI o3-mini atinge desempenho superior ao do OpenAI o1-mini. Com alto esforço, o o3-mini atinge um desempenho comparável ao do o1.

FrontierMath

Uma grade preta com várias linhas e colunas, separadas por linhas brancas finas, criando um layout estruturado e organizado.

Matemática de nível de pesquisa: O OpenAI o3-mini com alto raciocínio tem um desempenho melhor do que seu antecessor no FrontierMath. No FrontierMath, quando solicitado a usar uma ferramenta Python, o o3-mini com alto esforço de raciocínio resolve mais de 32% dos problemas na primeira tentativa, incluindo mais de 28% dos problemas desafiadores (T3). Esses números são provisórios, e o gráfico acima mostra o desempenho sem ferramentas ou calculadora.

Código de competição (Codeforces)

O gráfico de barras compara as classificações Elo nas tarefas de codificação da competição Codeforces entre os modelos de IA. Os modelos mais antigos (cinza) têm pontuação mais baixa, enquanto os mais novos (amarelo) melhoram. o "o3-mini (high)" atinge 2073 Elo, mostrando um progresso significativo em relação às versões anteriores.

Codificação de competição: Na programação competitiva do Codeforces, o OpenAI o3-mini atinge pontuações Elo progressivamente mais altas com o aumento do esforço de raciocínio, superando o o1-mini. Com um esforço de raciocínio médio, ela iguala o desempenho da o1.

Engenharia de software (SWE-bench Verified)

O gráfico de barras compara a precisão das tarefas de engenharia de software do SWE-bench Verified entre os modelos de IA. Os modelos mais antigos (cinza) têm desempenho inferior, enquanto o "o3-mini (high)" (amarelo) alcança a maior precisão, 48,9%, mostrando melhorias em relação às versões anteriores.

Engenharia de software: o3-mini é o nosso modelo lançado com melhor desempenho no SWEbench-verified. Para obter outros pontos de dados sobre os resultados do SWE-bench Verified com alto esforço de raciocínio, inclusive com o scaffold Agentless de código aberto (39%) e um scaffold de ferramentas internas (61%), consulte nosso cartão do sistema.

Codificação do LiveBench

A tabela compara modelos de IA em tarefas de codificação, mostrando métricas de desempenho e pontuações de avaliação. Ela destaca as diferenças de precisão e eficiência, com alguns modelos superando outros em benchmarks específicos.

Codificação do LiveBench: O OpenAI o3-mini supera o1-high mesmo com esforço de raciocínio médio, destacando sua eficiência em tarefas de codificação. Com alto esforço de raciocínio, o o3-mini amplia ainda mais sua liderança, alcançando um desempenho significativamente mais forte nas principais métricas.

Conhecimento geral

A tabela intitulada "Category Evals" compara modelos de IA em diferentes categorias de avaliação, mostrando métricas de desempenho. Ela destaca as diferenças de precisão, eficiência e eficácia, com alguns modelos superando outros em tarefas específicas.

Conhecimento geral: o o3-mini supera o o1-mini em avaliações de conhecimento em domínios de conhecimento geral.

Avaliação de preferência humana

O gráfico compara as taxas de vitória para tarefas STEM e não STEM entre os modelos de IA. o "o3_mini_v43_s960_j128" (amarelo) supera o "o1_mini_chatgpt" (linha de base vermelha) em ambas as categorias, com uma taxa de vitória mais alta para tarefas STEM.

O gráfico compara as taxas de vitória sob restrições de tempo e as principais taxas de erro entre os modelos de IA. o "o3_mini_v43_s960_j128" (amarelo) supera o "o1_mini_chatgpt" (linha de base vermelha) na taxa de vitórias e reduz significativamente os erros graves.

Avaliação da preferência humana: As avaliações de testadores especialistas externos também mostram que o OpenAI o3-mini produz respostas mais precisas e claras, com habilidades de raciocínio mais fortes do que o OpenAI o1-mini, especialmente para STEM. Os testadores preferiram as respostas da o3-mini à o1-mini em 56% das vezes e observaram uma redução de 39% nos principais erros em perguntas difíceis do mundo real.

Velocidade e desempenho do modelo

Com inteligência comparável à do OpenAI o1, o OpenAI o3-mini oferece desempenho mais rápido e maior eficiência. Além das avaliações STEM destacadas acima, o o3-mini demonstra resultados superiores em avaliações adicionais de matemática e factualidade com esforço médio de raciocínio. Nos testes A/B, a o3-mini forneceu respostas 24% mais rápidas do que a o1-mini, com um tempo médio de resposta de 7,7 segundos em comparação com 10,16 segundos.

Comparação de latência entre o1-mini e o3-mini (médio)

O gráfico de barras compara a latência entre os modelos "o1-mini" e "o3-mini (médio)". o "o3-mini" (amarelo mais claro) tem latência mais baixa, indicando tempos de resposta mais rápidos, enquanto o "o1-mini" (amarelo mais escuro) demora mais, em média.

Latência: o o3-mini tem um tempo médio de 2500 ms mais rápido para o primeiro token do que o o1-mini.

Segurança

Uma das principais técnicas que usamos para ensinar o OpenAI o3-mini a responder com segurança é o alinhamento deliberativo, em que treinamos o modelo para raciocinar sobre as especificações de segurança escritas por humanos antes de responder às solicitações do usuário. Semelhante ao OpenAI o1, descobrimos que o o3-mini supera significativamente o GPT-4o em avaliações desafiadoras de segurança e jailbreak. Antes da implementação, avaliamos cuidadosamente os riscos de segurança do o3-mini usando a mesma abordagem de preparação, equipe vermelha externa e avaliações de segurança do o1. Agradecemos aos testadores de segurança que se candidataram para testar o o3-mini no acesso antecipado. Os detalhes das avaliações abaixo, juntamente com uma explicação abrangente dos possíveis riscos e da eficácia de nossas atenuações, estão disponíveis no cartão do sistema o3-mini.

Avaliações de conteúdo não permitido

A tabela compara modelos de IA em métricas de segurança, avaliando o desempenho em diferentes categorias de risco. Ela destaca variações na conformidade de segurança, com alguns modelos apresentando melhor desempenho na redução de riscos potenciais.

Avaliações de jailbreak

A tabela compara modelos de IA em métricas de segurança em várias categorias de risco, mostrando variações de desempenho. Ela destaca as diferenças na atenuação de riscos, com alguns modelos demonstrando maior conformidade e respostas mais seguras.

O que vem por aí

O lançamento do OpenAI o3-mini marca mais um passo na missão da OpenAI de ampliar os limites da inteligência econômica. Ao otimizar o raciocínio para domínios STEM e, ao mesmo tempo, manter os custos baixos, estamos tornando a IA de alta qualidade ainda mais acessível. Esse modelo dá continuidade ao nosso histórico de reduzir o custo da inteligência - reduzindo o preço por token em 95% desde o lançamento do GPT-4 - e, ao mesmo tempo, manter os recursos de raciocínio de primeira linha. À medida que a adoção da IA se expande, continuamos comprometidos em liderar na fronteira, criando modelos que equilibram inteligência, eficiência e segurança em escala.

Autores

OpenAI

Treinamento

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders

Avaliação

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai

Avaliações de fronteira e preparação

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan

Engenharia

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Tomer Kaftan, Trevor Creech

Pesquisa

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu

Produtos

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement

Segurança

Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang

Redteaming externo

Lama Ahmad, Troy Peterson

Gerentes de programas de pesquisa

Carpus Chang, Kristen Ying

Liderança

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba

+ todos os colaboradores por trás do o1.