Os seres humanos podem facilmente superar a IA, de acordo com um estudo financiado pelo Apple
No início deste mês, uma equipe de seis cientistas de IA apoiados pelo site Apple publicou um estudo no qual apresentou o GSM-Symbolic, um novo benchmark de IA que "permite avaliações mais controláveis, fornecendo insights importantes e métricas mais confiáveis para medir os recursos de raciocínio dos modelos" Infelizmente, parece que os LLMs ainda são muito limitados e não têm os recursos de raciocínio mais básicos, revelaram os testes iniciais realizados usando o GSM-Symbolic com os mecanismos de IA de ícones do setor, como Meta e OpenAI.
O problema com os modelos existentes, conforme revelado pelos testes mencionados acima, está na falta de confiabilidade dos LLMs quando submetidos a consultas semelhantes. O estudo concluiu que pequenas mudanças no texto que não alterariam o significado de uma consulta para um ser humano muitas vezes levam a respostas diferentes dos bots de IA. A pesquisa não destacou nenhum modelo que se sobressaísse.
"Especificamente, o desempenho de todos os modelos diminui [mesmo] quando apenas os valores numéricos da pergunta são alterados no benchmark GSM-Symbolic"
concluiu a pesquisa, descobrindo também que
"a fragilidade do raciocínio matemático nesses modelos [demonstra] que seu desempenho se deteriora significativamente à medida que o número de cláusulas em uma pergunta aumenta"
O estudo, que tem 22 páginas, pode ser encontrado em aqui (arquivo PDF). As duas últimas páginas contêm problemas com algumas informações irrelevantes adicionadas no final, que não devem alterar o resultado final para um ser humano que esteja resolvendo o problema. No entanto, os modelos de IA usados também levaram essas partes em consideração, fornecendo assim respostas erradas.
Como conclusão, os modelos de IA ainda não conseguem ir além do reconhecimento de padrões e ainda não possuem recursos generalizáveis de solução de problemas. Este ano, vários LLMs foram revelados, incluindo o Llama 3.1 da Meta AIda Nvidia Nemotron-4da Anthropic Claude 3da Anthropic, o japonês Fugaku-LLM (o maior modelo já treinado exclusivamente com a potência da CPU) e Novada Rubik's AI, uma família de LLMs que foi revelada no início deste mês.
Amanhã, a O'Reilly lançará a primeira edição de Hands-On Large Language Models: Language Understanding and Generation, de Jay Alammar e Maarten Grootendorst. Seu preço é de US$ 48,99 (Kindle) ou US$ 59,13 (brochura).
Fonte(s)
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros