Os seres humanos podem facilmente superar a IA, de acordo com um estudo financiado pelo Apple

Humanos vs. IA (Fonte da imagem: Gerado usando DALL-E 3)

Embora muitas vezes apresentem resultados impressionantes, os mecanismos de IA, como os da Meta e da OpenAI, que usam grandes modelos de linguagem, ainda carecem de recursos básicos de raciocínio. Um grupo apoiado pelo site Apple propôs um novo benchmark, que já revelou que até mesmo as menores alterações de redação em uma consulta podem levar a respostas completamente diferentes.

Codrut Nistor (traduzido por Ninh Duy), Publicado 10/14/2024 🇺🇸 🇩🇪 ...

AI Science Fail

No início deste mês, uma equipe de seis cientistas de IA apoiados pelo site Apple publicou um estudo no qual apresentou o GSM-Symbolic, um novo benchmark de IA que "permite avaliações mais controláveis, fornecendo insights importantes e métricas mais confiáveis para medir os recursos de raciocínio dos modelos" Infelizmente, parece que os LLMs ainda são muito limitados e não têm os recursos de raciocínio mais básicos, revelaram os testes iniciais realizados usando o GSM-Symbolic com os mecanismos de IA de ícones do setor, como Meta e OpenAI.

O problema com os modelos existentes, conforme revelado pelos testes mencionados acima, está na falta de confiabilidade dos LLMs quando submetidos a consultas semelhantes. O estudo concluiu que pequenas mudanças no texto que não alterariam o significado de uma consulta para um ser humano muitas vezes levam a respostas diferentes dos bots de IA. A pesquisa não destacou nenhum modelo que se sobressaísse.

"Especificamente, o desempenho de todos os modelos diminui [mesmo] quando apenas os valores numéricos da pergunta são alterados no benchmark GSM-Symbolic"

concluiu a pesquisa, descobrindo também que

"a fragilidade do raciocínio matemático nesses modelos [demonstra] que seu desempenho se deteriora significativamente à medida que o número de cláusulas em uma pergunta aumenta"

O estudo, que tem 22 páginas, pode ser encontrado em aqui (arquivo PDF). As duas últimas páginas contêm problemas com algumas informações irrelevantes adicionadas no final, que não devem alterar o resultado final para um ser humano que esteja resolvendo o problema. No entanto, os modelos de IA usados também levaram essas partes em consideração, fornecendo assim respostas erradas.

Como conclusão, os modelos de IA ainda não conseguem ir além do reconhecimento de padrões e ainda não possuem recursos generalizáveis de solução de problemas. Este ano, vários LLMs foram revelados, incluindo o Llama 3.1 da Meta AIda Nvidia Nemotron-4da Anthropic Claude 3da Anthropic, o japonês Fugaku-LLM (o maior modelo já treinado exclusivamente com a potência da CPU) e Novada Rubik's AI, uma família de LLMs que foi revelada no início deste mês.

Amanhã, a O'Reilly lançará a primeira edição de Hands-On Large Language Models: Language Understanding and Generation, de Jay Alammar e Maarten Grootendorst. Seu preço é de US$ 48,99 (Kindle) ou US$ 59,13 (brochura).