Notebookcheck Logo

A OpenAI lança ferramentas e API para que os desenvolvedores criem agentes de IA para empresas

Os desenvolvedores podem criar agentes de IA avançados com as novas ferramentas e a API da OpenAI. (Fonte da imagem: Gerado por IA, Dall-E 3)
Os desenvolvedores podem criar agentes de IA avançados com as novas ferramentas e a API da OpenAI. (Fonte da imagem: Gerado por IA, Dall-E 3)
A nova API de respostas da OpenAI e as ferramentas para a criação de agentes permitem que as empresas criem rapidamente agentes de IA personalizados para atender a solicitações complexas dos clientes, como identificar os produtos mais adequados às necessidades individuais.

A OpenAI revelou novas ferramentas de software para que os desenvolvedores de aplicativos comerciais criem agentes de IA personalizados para atender às necessidades específicas de seus clientes. As ferramentas combinam vários recursos das ofertas de IA da OpenAI, simplificando a programação dos agentes.

Os chatbots de IA, como o ChatGPT da OpenAI, tornaram-se populares porque podem responder às solicitações que as pessoas lhes fazem. No entanto, esses chatbots estão limitados a perguntas simples que não precisam de pesquisa e raciocínio profundo, como "Qual é a altura da Torre de Tóquio?" Esses chatbots geralmente dependem das informações com as quais foram treinados e têm capacidade limitada de sintetizar respostas.

A IA agêntica pode navegar na Internet em busca de informações e usar o computador como um ser humano enquanto pesquisa um prompt complexo, como "Crie um plano de viagem para Tóquio que inclua lojas e locais populares de anime com um orçamento de US$ 2.000" Essas IAs podem pesquisar profundamente e, em seguida, pensar na solução de solicitações complexas.

Para desenvolver esses agentes de IA, a OpenAI criou a API de pesquisa para permitir que os programadores criem agentes com apenas algumas linhas de código. A nova API é baseada em sua API beta de assistentes, com feedback usado para melhorar sua facilidade de uso e velocidade. A Research API é um superconjunto da atual Chat Completions API, que cria respostas de texto a partir de prompts, e é a nova API recomendada pela empresa para uso. A API Assistants será descontinuada em 2026.

A OpenAI também lançou o SDK de agentes para ajudar os desenvolvedores a criar fluxos de trabalho com vários agentes, em que um agente especializado trabalha com outros para atender às solicitações dos clientes. Por exemplo, um agente pode direcionar solicitações de devolução de produtos para um agente de devoluções e solicitações de ideias de compras para um agente de compras.

Os agentes de IA da OpenAI conseguem encontrar com sucesso as informações necessárias para responder a perguntas factuais na maioria das vezes. (Fonte da imagem: OpenAI)
Os agentes de IA da OpenAI conseguem encontrar com sucesso as informações necessárias para responder a perguntas factuais na maioria das vezes. (Fonte da imagem: OpenAI)
Embora a IA da OpenAI possa navegar na Internet e usar um computador, suas habilidades ficam aquém de um assistente humano real ao concluir tarefas. (Fonte da imagem: OpenAI)
Embora a IA da OpenAI possa navegar na Internet e usar um computador, suas habilidades ficam aquém de um assistente humano real ao concluir tarefas. (Fonte da imagem: OpenAI)

11 de março de 2025

Produto

Novas ferramentas para a criação de agentes

Estamos evoluindo nossa plataforma para ajudar desenvolvedores e empresas a criar agentes úteis e confiáveis.

Experimente no Playground(abre em uma nova janela)

Uma interface elegante e mínima que exibe uma lista de tarefas para um agente de IA, incluindo "triage_agent", "guardrail" e "update_salesforce_record", sobre um fundo abstrato azul fluido.

Hoje, estamos lançando o primeiro conjunto de blocos de construção que ajudarão os desenvolvedores e as empresas a criar agentes úteis e confiáveis. Consideramos os agentes como sistemas que realizam tarefas de forma independente em nome dos usuários. No último ano, introduzimos novos recursos de modelo, como raciocínio avançado, interações multimodais e novas técnicas de segurança, que estabeleceram a base para que nossos modelos lidem com as tarefas complexas e de várias etapas necessárias para a criação de agentes. No entanto, os clientes compartilharam que transformar esses recursos em agentes prontos para a produção pode ser um desafio, muitas vezes exigindo uma extensa iteração de prompt e lógica de orquestração personalizada sem visibilidade suficiente ou suporte integrado.

Para enfrentar esses desafios, estamos lançando um novo conjunto de APIs e ferramentas projetadas especificamente para simplificar o desenvolvimento de aplicativos agênticos:

A nova API Responses(abre em uma nova janela), que combina a simplicidade da API Chat Completions com os recursos de uso de ferramentas da API Assistants para a criação de agentes

Ferramentas incorporadas, incluindo pesquisa na Web(abre em uma nova janela), pesquisa de arquivos(abre em uma nova janela) e uso do computador(abre em uma nova janela)

O novo SDK de agentes(abre em uma nova janela) para orquestrar fluxos de trabalho de agente único e de vários agentes

Ferramentas de observabilidade integradas(abre em uma nova janela) para rastrear e inspecionar a execução do fluxo de trabalho do agente

Essas novas ferramentas simplificam a lógica, a orquestração e as interações do agente principal, facilitando significativamente o início da criação de agentes para os desenvolvedores. Nas próximas semanas e meses, planejamos lançar ferramentas e recursos adicionais para simplificar e acelerar ainda mais a criação de aplicativos agênticos em nossa plataforma.

Apresentando a API de respostas

A API de respostas é nossa nova API primitiva para aproveitar as ferramentas integradas da OpenAI para criar agentes. Ela combina a simplicidade do Chat Completions com os recursos de uso de ferramentas da API Assistants. Como os recursos do modelo continuam a evoluir, acreditamos que a API Responses fornecerá uma base mais flexível para os desenvolvedores que criam aplicativos agênticos. Com uma única chamada à API de respostas, os desenvolvedores poderão resolver tarefas cada vez mais complexas usando várias ferramentas e modelos.

Para começar, a API de respostas oferecerá suporte a novas ferramentas integradas, como pesquisa na Web, pesquisa de arquivos e uso do computador. Essas ferramentas foram projetadas para trabalhar em conjunto e conectar modelos ao mundo real, tornando-os mais úteis na conclusão de tarefas. Ela também traz várias melhorias de usabilidade, incluindo um design unificado baseado em itens, polimorfismo mais simples, eventos de streaming intuitivos e ajudantes de SDK, como response.output_text, para acessar facilmente a saída de texto do modelo.

A API Responses foi projetada para desenvolvedores que desejam combinar facilmente modelos OpenAI e ferramentas integradas em seus aplicativos, sem a complexidade de integrar várias APIs ou fornecedores externos. A API também facilita o armazenamento de dados na OpenAI para que os desenvolvedores possam avaliar o desempenho do agente usando recursos como rastreamento e avaliações. Lembre-se de que, por padrão, não treinamos nossos modelos em dados comerciais, mesmo quando os dados são armazenados na OpenAI. A API está disponível para todos os desenvolvedores a partir de hoje e não é cobrada separadamente - tokens e ferramentas são cobrados de acordo com as taxas padrão especificadas em nossa página de preços(abre em uma nova janela). Confira o guia de início rápido da API de respostas(abre em uma nova janela) para saber mais.

O que isso significa para as APIs existentes

API de conclusões de chat(abre em uma nova janela): A Chat Completions continua sendo nossa API mais amplamente adotada, e estamos totalmente comprometidos em oferecer suporte a ela com novos modelos e recursos. Os desenvolvedores que não precisam de ferramentas integradas podem continuar usando o Chat Completions com confiança. Continuaremos lançando novos modelos para o Chat Completions sempre que seus recursos não dependerem de ferramentas integradas ou de várias chamadas de modelo. No entanto, a API de respostas é um superconjunto(abre em uma nova janela) do Chat Completions com o mesmo excelente desempenho, portanto, para novas integrações, recomendamos começar com a API de respostas.

API de assistentes(abre em uma nova janela): Com base no feedback dos desenvolvedores da versão beta da API de assistentes, incorporamos os principais aprimoramentos à API de respostas, tornando-a mais flexível, mais rápida e mais fácil de usar. Estamos trabalhando para alcançar a paridade total de recursos entre os Assistentes e a API de respostas, incluindo o suporte a objetos do tipo Assistant e Thread e a ferramenta Code Interpreter. Quando isso for concluído, planejamos anunciar formalmente a descontinuação da API de assistentes com uma data de expiração prevista para meados de 2026. Após a descontinuação, forneceremos um guia de migração claro da API de assistentes para a API de respostas que permita aos desenvolvedores preservar todos os seus dados e migrar seus aplicativos. Até anunciarmos formalmente a descontinuação, continuaremos a fornecer novos modelos para a API de assistentes. A API de respostas representa a direção futura para a criação de agentes na OpenAI.

Apresentando ferramentas integradas na API de respostas

Pesquisa na Web

Os desenvolvedores agora podem obter respostas rápidas e atualizadas com citações claras e relevantes da Web. Na API de respostas, a pesquisa na Web está disponível como uma ferramenta ao usar o gpt-4o e o gpt-4o-mini, e pode ser combinada com outras ferramentas ou chamadas de função.

JavaScript

1

const response = await openai.responses.create({

2

model: "gpt-4o",

3

tools: [ { type: "web_search_preview" } ],

4

input: "Qual foi uma notícia positiva que aconteceu hoje?",

5

});

6


7

console.log(response.output_text);

Durante os primeiros testes, vimos os desenvolvedores criarem com a pesquisa na Web uma variedade de casos de uso, incluindo assistentes de compras, agentes de pesquisa e agentes de reserva de viagens - qualquer aplicativo que exija informações oportunas da Web.

Por exemplo, a Hebbia(abre em uma nova janela) aproveita a ferramenta de pesquisa na Web para ajudar gerentes de ativos, empresas de private equity e crédito e escritórios de advocacia a extrair rapidamente insights acionáveis de extensos conjuntos de dados públicos e privados. Ao integrar recursos de pesquisa em tempo real em seus fluxos de trabalho de pesquisa, a Hebbia fornece inteligência de mercado mais rica e específica ao contexto e melhora continuamente a precisão e a relevância de suas análises, superando os benchmarks atuais.

A pesquisa na Web na API é alimentada pelo mesmo modelo usado para a pesquisa do ChatGPT. No SimpleQA, um benchmark que avalia a precisão dos LLMs na resposta a perguntas curtas e factuais, a pré-visualização da pesquisa GPT-4o e a pré-visualização da mini pesquisa GPT-4o obtiveram 90% e 88%, respectivamente.

Precisão do SimpleQA (quanto maior, melhor)

63%

38%

47%

15%

90%

88%

0

20

40

60

80

100

Precisão

GPT-4.5

GPT-4o

OpenAI o1

OpenAI o3-mini

GPT-4o

visualização de pesquisa

GPT-4o mini

visualização da pesquisa

As respostas geradas com a pesquisa na Web na API incluem links para fontes, como artigos de notícias e postagens de blogs, oferecendo aos usuários uma maneira de saber mais. Com essas citações claras e em linha, os usuários podem interagir com as informações de uma nova maneira, enquanto os proprietários de conteúdo ganham novas oportunidades de atingir um público mais amplo.

Qualquer site ou editor pode optar por aparecer(abre em uma nova janela) na pesquisa na Web na API.

A ferramenta de pesquisa na Web está disponível para todos os desenvolvedores em visualização na API de respostas. Também estamos oferecendo aos desenvolvedores acesso direto aos nossos modelos de pesquisa ajustados na API Chat Completions por meio de gpt-4o-search-preview e gpt-4o-mini-search-preview. Os preços(abre em uma nova janela) começam, respectivamente, em US$ 30 e US$ 25 por mil consultas para a pesquisa GPT-4o e a pesquisa 4o-mini, respectivamente. Confira a pesquisa na Web no Playground(abre em uma nova janela) e saiba mais em nossos documentos(abre em uma nova janela).

Pesquisa de arquivos

Os desenvolvedores agora podem recuperar facilmente informações relevantes de grandes volumes de documentos usando a ferramenta aprimorada de pesquisa de arquivos. Com suporte para vários tipos de arquivos, otimização de consultas, filtragem de metadados e classificação personalizada, ela pode fornecer resultados de pesquisa rápidos e precisos. E, novamente, com a API de respostas, são necessárias apenas algumas linhas de código para integrá-la.

JavaScript

1 const productDocs = await openai.vectorStores.create({

2 name: "Product Documentation",

3 file_ids: [file1.id, file2.id, file3.id],

4 });

5

6 const response = await openai.responses.create({

7 model: "gpt-4o-mini",

8 tools: [{

9 type: "file_search",

10 vector_store_ids: [productDocs.id],

11 }],

12 input: "O que é pesquisa profunda da OpenAI?",

13 });

14

15 console.log(response.output_text);

A ferramenta de pesquisa de arquivos pode ser usada para uma variedade de casos de uso no mundo real, incluindo permitir que um agente de suporte ao cliente acesse facilmente as perguntas frequentes, ajudar um assistente jurídico a consultar rapidamente casos anteriores para um profissional qualificado e auxiliar um agente de codificação a consultar a documentação técnica. Por exemplo, a Navan(abre em uma nova janela) usa a pesquisa de arquivos em seu agente de viagens com IA para fornecer rapidamente aos seus usuários respostas precisas de artigos da base de conhecimento (como a política de viagens da empresa). Com otimização de consultas e reranking integrados, eles podem configurar um pipeline RAG (retrieval-augmented generation) avançado sem ajustes ou configurações adicionais. Com armazenamentos de vetores dedicados para cada grupo de usuários, a Navan pode adaptar as respostas às configurações de contas individuais e às funções dos usuários, economizando tempo para os clientes e sua equipe e ajudando a fornecer suporte preciso e personalizado.


Essa ferramenta está disponível na API de respostas para todos os desenvolvedores. O preço de uso(abre em uma nova janela) é de US$ 2,50 por mil consultas e o armazenamento de arquivos é de US$ 0,10/GB/dia, com o primeiro GB gratuito. A ferramenta continua disponível na API Assistants. Por fim, também adicionamos um novo ponto de extremidade de pesquisa aos objetos da API do Vector Store para consultar diretamente seus dados para uso em outros aplicativos e APIs. Saiba mais em nossos documentos(abre em uma nova janela) e comece a testar no Playground(abre em uma nova janela).


Uso do computador

Para criar agentes capazes de concluir tarefas em um computador, os desenvolvedores agora podem usar a ferramenta de uso do computador na API de respostas, alimentada pelo mesmo modelo de agente de uso do computador (CUA) que permite o Operator. Esse modelo de pré-visualização de pesquisa estabeleceu um novo recorde de última geração, alcançando 38,1% de sucesso no OSWorld(abre em uma nova janela) para tarefas completas de uso do computador, 58,1% no WebArena(abre em uma nova janela) e 87% no WebVoyager(abre em uma nova janela) para interações baseadas na Web.


A ferramenta integrada de uso do computador captura as ações do mouse e do teclado geradas pelo modelo, possibilitando que os desenvolvedores automatizem as tarefas de uso do computador, traduzindo diretamente essas ações em comandos executáveis em seus ambientes.

JavaScript

1 const response = await openai.responses.create({

2 model: "computer-use-preview",

3 tools: [{

4 type: "computer_use_preview",

5 display_width: 1024,

6 display_height: 768,

7 environment: "browser",

8 }],

9 truncation: "auto",

10 input: "Estou procurando uma nova câmera. Ajude-me a encontrar a melhor.",

11 });

12

13 console.log(response.output);

Os desenvolvedores podem usar a ferramenta de uso do computador para automatizar fluxos de trabalho baseados no navegador, como a garantia de qualidade em aplicativos da Web ou a execução de tarefas de entrada de dados em sistemas legados. Por exemplo, o Unify(abre em uma nova janela) é um sistema de ação para aumentar a receita que usa agentes para identificar a intenção, pesquisar contas e interagir com os compradores. Usando a ferramenta de uso de computador da OpenAI, os agentes da Unify podem acessar informações que antes eram inacessíveis por meio de APIs - como permitir que uma empresa de administração de imóveis verifique, por meio de mapas on-line, se uma empresa expandiu sua área de atuação imobiliária. Essa pesquisa funciona como um sinal personalizado para acionar o alcance personalizado, capacitando as equipes de entrada no mercado a envolver os compradores com precisão e escala.

Como outro exemplo, a Luminai(abre em uma nova janela) integrou a ferramenta de uso do computador para automatizar fluxos de trabalho operacionais complexos para grandes empresas com sistemas legados que não têm disponibilidade de API e dados padronizados. Em um piloto recente com uma grande organização de serviços comunitários, a Luminai automatizou o processamento de aplicativos e o processo de registro de usuários em apenas alguns dias - algo que a automação de processos robóticos (RPA) tradicional não conseguiu alcançar após meses de esforço.

Antes de lançarmos a CUA no Operator no ano passado, realizamos testes de segurança extensivos e formação de equipes vermelhas, abordando três áreas principais de risco: uso indevido, erros de modelo e riscos de fronteira. Para lidar com os riscos associados à expansão dos recursos do Operator para sistemas operacionais locais por meio da CUA na API, realizamos avaliações de segurança adicionais e formação de equipes vermelhas. Também adicionamos atenuações para os desenvolvedores, incluindo verificações de segurança para proteção contra injeções rápidas, solicitações de confirmação para tarefas confidenciais, ferramentas para ajudar os desenvolvedores a isolar seus ambientes e detecção aprimorada de possíveis violações de políticas. Embora essas atenuações ajudem a reduzir o risco, o modelo ainda é suscetível a erros inadvertidos, especialmente em ambientes que não são de navegador. Por exemplo, o desempenho do CUA no OSWorld, um benchmark criado para medir o desempenho de agentes de IA em tarefas do mundo real, está atualmente em 38,1%, indicando que o modelo ainda não é altamente confiável para automatizar tarefas em sistemas operacionais. A supervisão humana é recomendada nesses cenários. Mais detalhes sobre nosso trabalho de segurança específico da API podem ser encontrados em nosso cartão de sistema atualizado.

Tipo de benchmark Benchmark Uso do computador (interface universal) Agentes de navegação na Web Humanos

OpenAI CUA SOTA anterior SOTA anterior

Uso do computador OSWorld 38,1% 22,0% - 72,4%

Uso do navegador WebArena 58,1% 36,2% 57,1% 78,2%

WebVoyager 87,0% 56,0% 87,0% -

Os detalhes da avaliação estão descritos aqui

A partir de hoje, a ferramenta de uso do computador está disponível como uma visualização de pesquisa na API de respostas para desenvolvedores selecionados nas camadas de uso 3-5(abre em uma nova janela). O preço do uso(abre em uma nova janela) é de US$ 3/1 milhão de tokens de entrada e US$ 12/1 milhão de tokens de saída. Saiba mais em nossos documentos(abre em uma nova janela) e confira o aplicativo de amostra(abre em uma nova janela) que ilustra como criar com essa ferramenta.

SDK de agentes

Além de criar a lógica central dos agentes e dar a eles acesso a ferramentas para que sejam úteis, os desenvolvedores também precisam orquestrar fluxos de trabalho agênticos. Nosso novo SDK de agentes de código aberto simplifica a orquestração de fluxos de trabalho com vários agentes e oferece melhorias significativas em relação ao Swarm(abre em uma nova janela), um SDK experimental que lançamos no ano passado e que foi amplamente adotado pela comunidade de desenvolvedores e implantado com sucesso por vários clientes.

Os aprimoramentos incluem:

Agentes: LLMs facilmente configuráveis com instruções claras e ferramentas integradas.

Handoffs: Transferência inteligente de controle entre agentes.

Guardrails: Verificações de segurança configuráveis para validação de entrada e saída.

Rastreamento e observabilidade: Visualize os rastros de execução do agente para depurar e otimizar o desempenho.

Python

1 from agents import Agent, Runner, WebSearchTool, function_tool, guardrail

2

3 @function_tool

4 def submit_refund_request(item_id: str, reason: str):

5 # Sua lógica de reembolso fica aqui

6 return "success" (sucesso)

7

8 support_agent = Agent(

9 name="Support & Returns",

10 instructions="O senhor é um agente de suporte que pode enviar reembolsos [...]",

11 tools=[submit_refund_request],

12 )

13

14 shopping_agent = Agent(

15 name="Shopping Assistant",

16 instructions="O senhor é um assistente de compras que pode pesquisar na Web [...]",

17 tools=[WebSearchTool()],

18 )

19

20 triage_agent = Agent(

21 name="Agente de triagem",

22 instructions="Encaminhar o usuário para o agente correto.",

23 handoffs=[shopping_agent, support_agent],

24 )

25

26 output = Runner.run_sync(

27 starting_agent=triage_agent,

28 input="Quais sapatos combinam melhor com minha roupa até agora?",

29 )

O SDK de agentes é adequado para vários aplicativos do mundo real, inclusive automação de suporte ao cliente, pesquisa em várias etapas, geração de conteúdo, revisão de código e prospecção de vendas. Por exemplo, a Coinbase(abre em uma nova janela) usou o SDK do Agents para criar rapidamente um protótipo e implantar o AgentKit, um kit de ferramentas que permite que os agentes de IA interajam perfeitamente com carteiras de criptomoedas e várias atividades na cadeia. Em apenas algumas horas, a Coinbase integrou ações personalizadas de seu SDK de plataforma de desenvolvedor em um agente totalmente funcional. A arquitetura otimizada do AgentKit simplificou o processo de adicionar novas ações de agente, permitindo que os desenvolvedores se concentrem mais em integrações significativas e menos em navegar em configurações complexas de agentes.

Em alguns dias, a Box(abre em uma nova janela) conseguiu criar rapidamente agentes que aproveitam a pesquisa na Web e o SDK do Agents para permitir que as empresas pesquisem, consultem e extraiam insights de dados não estruturados armazenados na Box e em fontes públicas da Internet. Essa abordagem permite que os clientes não apenas acessem as informações mais recentes, mas também pesquisem seus dados internos e proprietários de maneira segura e protegida, obedecendo às permissões internas e às políticas de segurança. Por exemplo, uma empresa de serviços financeiros pode criar um agente personalizado que invoca o agente Box AI para integrar sua análise de mercado interna armazenada no Box com notícias em tempo real e dados econômicos da Web, fornecendo aos seus analistas uma visão abrangente para decisões de investimento.

O SDK de agentes funciona com a API de respostas e a API de conclusões de bate-papo. O SDK também funcionará com modelos de outros provedores, desde que eles forneçam um endpoint de API no estilo Chat Completions. Os desenvolvedores podem integrá-lo imediatamente em suas bases de código Python, com suporte para Node.js em breve. Saiba mais em nossa documentação(abre em uma nova janela).

Ao projetar o SDK do Agents, nossa equipe se inspirou no excelente trabalho de outros membros da comunidade, incluindo Pydantic(abre em uma nova janela), Griffe(abre em uma nova janela) e MkDocs(abre em uma nova janela). Temos o compromisso de continuar a desenvolver o SDK do Agents como uma estrutura de código aberto para que outros membros da comunidade possam expandir nossa abordagem.

O que vem por aí: criando a plataforma para agentes

Acreditamos que os agentes logo se tornarão parte integrante da força de trabalho, aumentando significativamente a produtividade em todos os setores. À medida que as empresas buscam cada vez mais aproveitar a IA para tarefas complexas, temos o compromisso de fornecer os blocos de construção que permitem que desenvolvedores e empresas criem efetivamente sistemas autônomos que proporcionem impacto no mundo real.

Com os lançamentos de hoje, estamos introduzindo os primeiros componentes básicos para capacitar os desenvolvedores e as empresas a criar, implementar e dimensionar mais facilmente agentes de IA confiáveis e de alto desempenho. À medida que os recursos de modelo se tornam cada vez mais agênticos, continuaremos investindo em integrações mais profundas em nossas APIs e em novas ferramentas para ajudar a implementar, avaliar e otimizar agentes na produção. Nosso objetivo é oferecer aos desenvolvedores uma experiência de plataforma perfeita para a criação de agentes que possam ajudar com uma variedade de tarefas em qualquer setor. Estamos animados para ver o que os desenvolvedores criarão a seguir. Para começar, explore nossos documentos(abre em uma nova janela) e fique atento a mais atualizações em breve.

Please share our article, every link counts!
Mail Logo
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2025 03 > A OpenAI lança ferramentas e API para que os desenvolvedores criem agentes de IA para empresas
David Chien, 2025-03-12 (Update: 2025-03-12)