A Mistral lançou um novo produto chamado Mistral OCR, uma API de reconhecimento óptico de caracteres alimentada por IA, projetada para se destacar na conversão de documentos impressos em arquivos digitais.
Existem milhões de documentos impressos e arquivos PDF não editáveis, incluindo registros de nascimento e livros antigos. O software de reconhecimento óptico de caracteres converte o texto e o layout desses materiais de origem em arquivos digitais editáveis. Embora o software de OCR converta facilmente documentos de texto simples com precisão, eles geralmente têm problemas com tabelas e gráficos complexos, além de idiomas estrangeiros.
O Mistral OCR foi criado especificamente tendo em mente a conversão de documentos complexos e multilíngues. A precisão do Mistral na conversão de texto em 11 idiomas varia de um mínimo de 97,00% a um máximo de 99,54%, melhor do que o desempenho das ofertas de OCR de IA da Microsoft e do Google. Sua precisão também é maior do que a dos concorrentes testados para conversões de documentos complexos, como os que envolvem matemática ou tabelas.
No momento, a API de OCR da Mistral está limitada a documentos carregados com menos de 50 MB e menos de 1.000 páginas. Os documentos impressos devem ser digitalizados primeiro por scanners como este da Amazon, enquanto os arquivos PDF, imagens e sites da Web podem ser processados diretamente.
Mistral OCR
Apresentamos a melhor API de compreensão de documentos do mundo.
Pesquisa
6 de março de 2025
Equipe de IA da Mistral
Ao longo da história, os avanços na abstração e recuperação de informações impulsionaram o progresso humano. Dos hieróglifos aos papiros, da prensa de impressão à digitalização, cada salto tornou o conhecimento humano mais acessível e acionável, alimentando mais inovações.
Hoje, estamos no limiar do próximo grande salto - desbloquear a inteligência coletiva de todas as informações digitalizadas. Aproximadamente 90% dos dados organizacionais do mundo são armazenados como documentos e, para aproveitar esse potencial, estamos introduzindo o Mistral OCR.
O Mistral OCR é uma API de reconhecimento óptico de caracteres que define um novo padrão na compreensão de documentos. Diferentemente de outros modelos, o Mistral OCR compreende cada elemento dos documentos - mídia, texto, tabelas, equações - com precisão e cognição sem precedentes. Ele usa imagens e PDFs como entrada e extrai o conteúdo em um texto e imagens intercalados e ordenados.
Como resultado, o Mistral OCR é um modelo ideal para ser usado em combinação com um sistema RAG que recebe documentos multimodais (como slides ou PDFs complexos) como entrada.
Tornamos o Mistral OCR o modelo padrão para a compreensão de documentos em milhões de usuários no Le Chat e estamos lançando a API mistral-ocr-latest a 1000 páginas / $ (e aproximadamente o dobro de páginas por dólar com inferência em lote). A API está disponível hoje em nossa suíte de desenvolvedores la Plateforme e, em breve, para nossos parceiros de nuvem e inferência, bem como no local.
Destaques
Compreensão de ponta de documentos complexos
Nativamente multilíngue e multimodal
Benchmarks de primeira linha
O mais rápido em sua categoria
Saída estruturada de documentos como prompt
Disponível seletivamente para auto-hospedagem para organizações que lidam com informações altamente sensíveis ou confidenciais
Vamos nos aprofundar em cada um deles.
Compreensão de ponta de documentos complexos
O Mistral OCR se destaca na compreensão de elementos complexos de documentos, incluindo imagens intercaladas, expressões matemáticas, tabelas e layouts avançados, como a formatação LaTeX. O modelo permite uma compreensão mais profunda de documentos ricos, como artigos científicos com tabelas, gráficos, equações e figuras.
Abaixo está um exemplo do modelo que extrai texto e imagens de um determinado PDF em um arquivo markdown. O senhor pode acessar o notebook aqui.
Abaixo, temos comparações lado a lado de PDFs e seus respectivos resultados de OCR. Passe o mouse sobre o controle deslizante para alternar entre entrada e saída.
Tabelas + figuras
3 Exemplo
Resultado do OCR
3 Ocr
Matemática
4 Exemplo
Resultado do OCR
4 Ocr
Hindi
5 Exemplo
Resultado do OCR
Hindi Ocr
Documento
6 Exemplo
Resultado do OCR
6 Ocr
Árabe
7 Exemplo
Resultado do OCR
OCR em árabe
Benchmarks de primeira linha
O Mistral OCR tem superado consistentemente outros modelos líderes de OCR em rigorosos testes de benchmark. Sua precisão superior em vários aspectos da análise de documentos é ilustrada abaixo. Extraímos imagens incorporadas de documentos junto com o texto. Os outros LLMs comparados abaixo não têm esse recurso. Para uma comparação justa, nós os avaliamos em nosso conjunto de testes internos "somente de texto", contendo vários artigos de publicações e PDFs da Web:
Modelo Geral Matemática Multilíngue Digitalizado Tabelas
Google Document AI 83.42 80.29 86.42 92.77 78.16
Azure OCR 89,52 85,72 87,52 94,65 89,52
Gemini-1.5-Flash-002 90.23 89.11 86.76 94.87 90.48
Gemini-1.5-Pro-002 89.92 88.48 86.33 96.15 89.71
Gemini-2.0-Flash-001 88.69 84.18 85.80 95.11 91.46
GPT-4o-2024-11-20 89,77 87,55 86,00 94,58 91,70
Mistral OCR 2503 94.89 94.29 89.55 98.96 96.12
Nativamente multilíngue
Desde a fundação da Mistral, aspiramos a servir o mundo com nossos modelos e, consequentemente, nos esforçamos para obter recursos multilíngues em nossas ofertas. O Mistral OCR leva isso a um novo nível, sendo capaz de analisar, entender e transcrever milhares de scripts, fontes e idiomas em todos os continentes. Essa versatilidade é crucial para organizações globais que lidam com documentos de diversas origens linguísticas, bem como para empresas hiperlocais que atendem a nichos de mercado.
Modelo Fuzzy Match in Generation
Google-Document-AI 95.88
Gemini-2.0-Flash-001 96.53
Azure OCR 97,31
Mistral OCR 2503 99,02
Benchmarks por idioma:
Idioma Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503
ru 97.35 95.56 96.58 99.09
fr 97.50 96.36 97.06 99.20
hi 96.45 95.65 94.99 97.55
zh 91.40 90.89 91.85 97.11
pt 97.96 96.24 97.25 99.42
de 98.39 97.09 97.19 99.51
es 98.54 97.52 97.75 99.54
tr 95.91 93.85 94.66 97.00
uk 97.81 96.24 96.70 99.29
it 98.31 97.69 97.68 99.42
ro 96.45 95.14 95.88 98.79
O mais rápido em sua categoria
Por ser mais leve do que a maioria dos modelos da categoria, o Mistral OCR tem um desempenho significativamente mais rápido do que seus pares, processando até 2.000 páginas por minuto em um único nó. A capacidade de processar documentos rapidamente garante aprendizado e aprimoramento contínuos, mesmo em ambientes de alto rendimento.
Doc-as-prompt, saída estruturada
O Mistral OCR também introduz o uso de documentos como prompts, permitindo instruções mais poderosas e precisas. Esse recurso permite que os usuários extraiam informações específicas de documentos e as formatem em saídas estruturadas, como JSON. Os usuários podem encadear as saídas extraídas em chamadas de função downstream e criar agentes. Veja este exemplo de notebook.
Disponível para auto-hospedagem em uma base seletiva
Para organizações com requisitos rigorosos de privacidade de dados, o Mistral OCR oferece uma opção de auto-hospedagem. Isso garante que as informações confidenciais ou classificadas permaneçam seguras em sua própria infraestrutura, proporcionando conformidade com os padrões regulatórios e de segurança. Se o senhor quiser explorar a auto-implantação conosco, entre em contato conosco.
Casos de uso
Estamos capacitando nossos clientes beta a elevar o conhecimento organizacional, transformando seus extensos repositórios de documentos em ações e soluções. Alguns dos principais casos de uso em que nossa tecnologia está causando um impacto significativo incluem:
Digitalização de pesquisas científicas: As principais instituições de pesquisa têm experimentado o Mistral OCR para converter artigos e periódicos científicos em formatos prontos para IA, tornando-os acessíveis aos mecanismos de inteligência downstream. Isso facilitou uma colaboração mensuravelmente mais rápida e acelerou os fluxos de trabalho científicos.
Preservação do patrimônio histórico e cultural: Organizações e organizações sem fins lucrativos que são guardiãs do patrimônio têm usado o Mistral OCR para digitalizar documentos e artefatos históricos, garantindo sua preservação e tornando-os acessíveis a um público mais amplo.
Agilização do atendimento ao cliente: Os departamentos de atendimento ao cliente estão explorando o Mistral OCR para transformar documentação e manuais em conhecimento indexado, reduzindo os tempos de resposta e melhorando a satisfação do cliente.
Tornar a literatura nos setores de design, educação, jurídico etc. Pronta para IA: O Mistral OCR também tem ajudado as empresas a converter literatura técnica, desenhos de engenharia, anotações de palestras, apresentações, registros regulatórios e muito mais em formatos indexados e prontos para respostas, desbloqueando inteligência e produtividade em milhões de documentos.
Experimente hoje mesmo
Os recursos de OCR da Mistral podem ser testados gratuitamente no Le Chat. Para experimentar a API, vá até a Plateforme. Gostaríamos muito de receber seu feedback; espere que o modelo continue a melhorar ainda mais nas próximas semanas. Como parte de nossos programas de envolvimento estratégico, também ofereceremos a implementação no local em uma base seletiva.
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros