Notebookcheck Logo

O Mistral OCR converte com precisão documentos complexos em arquivos editáveis com IA

O Mistral OCR usa IA para converter com precisão documentos impressos e PDF em arquivos editáveis. (Fonte da imagem: Mistral)
O Mistral OCR usa IA para converter com precisão documentos impressos e PDF em arquivos editáveis. (Fonte da imagem: Mistral)
A Mistral revelou sua API de reconhecimento óptico de caracteres para ser usada pelas empresas na conversão de grandes quantidades de documentos em arquivos digitais editáveis com rapidez e precisão.

A Mistral lançou um novo produto chamado Mistral OCR, uma API de reconhecimento óptico de caracteres alimentada por IA, projetada para se destacar na conversão de documentos impressos em arquivos digitais.

Existem milhões de documentos impressos e arquivos PDF não editáveis, incluindo registros de nascimento e livros antigos. O software de reconhecimento óptico de caracteres converte o texto e o layout desses materiais de origem em arquivos digitais editáveis. Embora o software de OCR converta facilmente documentos de texto simples com precisão, eles geralmente têm problemas com tabelas e gráficos complexos, além de idiomas estrangeiros.

O Mistral OCR foi criado especificamente tendo em mente a conversão de documentos complexos e multilíngues. A precisão do Mistral na conversão de texto em 11 idiomas varia de um mínimo de 97,00% a um máximo de 99,54%, melhor do que o desempenho das ofertas de OCR de IA da Microsoft e do Google. Sua precisão também é maior do que a dos concorrentes testados para conversões de documentos complexos, como os que envolvem matemática ou tabelas.

No momento, a API de OCR da Mistral está limitada a documentos carregados com menos de 50 MB e menos de 1.000 páginas. Os documentos impressos devem ser digitalizados primeiro por scanners como este da Amazon, enquanto os arquivos PDF, imagens e sites da Web podem ser processados diretamente.

O OCR da Mistral tem um desempenho melhor do que o da concorrência em documentos complexos. (Fonte da imagem: Mistral)
O OCR da Mistral tem um desempenho melhor do que o da concorrência em documentos complexos. (Fonte da imagem: Mistral)
O Mistral OCR lida com a conversão de texto em dezenas de idiomas melhor do que os concorrentes. (Fonte da imagem: Mistral)
O Mistral OCR lida com a conversão de texto em dezenas de idiomas melhor do que os concorrentes. (Fonte da imagem: Mistral)
São necessárias apenas algumas linhas de código Python para usar a API de OCR da Mistral. (Fonte da imagem: Mistral)
São necessárias apenas algumas linhas de código Python para usar a API de OCR da Mistral. (Fonte da imagem: Mistral)
 

Mistral OCR

Apresentamos a melhor API de compreensão de documentos do mundo.

Pesquisa

6 de março de 2025

Equipe de IA da Mistral

Ao longo da história, os avanços na abstração e recuperação de informações impulsionaram o progresso humano. Dos hieróglifos aos papiros, da prensa de impressão à digitalização, cada salto tornou o conhecimento humano mais acessível e acionável, alimentando mais inovações.

Hoje, estamos no limiar do próximo grande salto - desbloquear a inteligência coletiva de todas as informações digitalizadas. Aproximadamente 90% dos dados organizacionais do mundo são armazenados como documentos e, para aproveitar esse potencial, estamos introduzindo o Mistral OCR.

O Mistral OCR é uma API de reconhecimento óptico de caracteres que define um novo padrão na compreensão de documentos. Diferentemente de outros modelos, o Mistral OCR compreende cada elemento dos documentos - mídia, texto, tabelas, equações - com precisão e cognição sem precedentes. Ele usa imagens e PDFs como entrada e extrai o conteúdo em um texto e imagens intercalados e ordenados.

Como resultado, o Mistral OCR é um modelo ideal para ser usado em combinação com um sistema RAG que recebe documentos multimodais (como slides ou PDFs complexos) como entrada.

Tornamos o Mistral OCR o modelo padrão para a compreensão de documentos em milhões de usuários no Le Chat e estamos lançando a API mistral-ocr-latest a 1000 páginas / $ (e aproximadamente o dobro de páginas por dólar com inferência em lote). A API está disponível hoje em nossa suíte de desenvolvedores la Plateforme e, em breve, para nossos parceiros de nuvem e inferência, bem como no local.

Destaques

Compreensão de ponta de documentos complexos

Nativamente multilíngue e multimodal

Benchmarks de primeira linha

O mais rápido em sua categoria

Saída estruturada de documentos como prompt

Disponível seletivamente para auto-hospedagem para organizações que lidam com informações altamente sensíveis ou confidenciais

Vamos nos aprofundar em cada um deles.

Compreensão de ponta de documentos complexos

O Mistral OCR se destaca na compreensão de elementos complexos de documentos, incluindo imagens intercaladas, expressões matemáticas, tabelas e layouts avançados, como a formatação LaTeX. O modelo permite uma compreensão mais profunda de documentos ricos, como artigos científicos com tabelas, gráficos, equações e figuras.

Abaixo está um exemplo do modelo que extrai texto e imagens de um determinado PDF em um arquivo markdown. O senhor pode acessar o notebook aqui.

Abaixo, temos comparações lado a lado de PDFs e seus respectivos resultados de OCR. Passe o mouse sobre o controle deslizante para alternar entre entrada e saída.

Tabelas + figuras

3 Exemplo

Resultado do OCR

3 Ocr

Matemática

4 Exemplo

Resultado do OCR

4 Ocr

Hindi

5 Exemplo

Resultado do OCR

Hindi Ocr

Documento

6 Exemplo

Resultado do OCR

6 Ocr

Árabe

7 Exemplo

Resultado do OCR

OCR em árabe

Benchmarks de primeira linha

O Mistral OCR tem superado consistentemente outros modelos líderes de OCR em rigorosos testes de benchmark. Sua precisão superior em vários aspectos da análise de documentos é ilustrada abaixo. Extraímos imagens incorporadas de documentos junto com o texto. Os outros LLMs comparados abaixo não têm esse recurso. Para uma comparação justa, nós os avaliamos em nosso conjunto de testes internos "somente de texto", contendo vários artigos de publicações e PDFs da Web:

Modelo Geral Matemática Multilíngue Digitalizado Tabelas

Google Document AI 83.42 80.29 86.42 92.77 78.16

Azure OCR 89,52 85,72 87,52 94,65 89,52

Gemini-1.5-Flash-002 90.23 89.11 86.76 94.87 90.48

Gemini-1.5-Pro-002 89.92 88.48 86.33 96.15 89.71

Gemini-2.0-Flash-001 88.69 84.18 85.80 95.11 91.46

GPT-4o-2024-11-20 89,77 87,55 86,00 94,58 91,70

Mistral OCR 2503 94.89 94.29 89.55 98.96 96.12

Nativamente multilíngue

Desde a fundação da Mistral, aspiramos a servir o mundo com nossos modelos e, consequentemente, nos esforçamos para obter recursos multilíngues em nossas ofertas. O Mistral OCR leva isso a um novo nível, sendo capaz de analisar, entender e transcrever milhares de scripts, fontes e idiomas em todos os continentes. Essa versatilidade é crucial para organizações globais que lidam com documentos de diversas origens linguísticas, bem como para empresas hiperlocais que atendem a nichos de mercado.

Modelo Fuzzy Match in Generation

Google-Document-AI 95.88

Gemini-2.0-Flash-001 96.53

Azure OCR 97,31

Mistral OCR 2503 99,02

Benchmarks por idioma:

Idioma Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503

ru 97.35 95.56 96.58 99.09

fr 97.50 96.36 97.06 99.20

hi 96.45 95.65 94.99 97.55

zh 91.40 90.89 91.85 97.11

pt 97.96 96.24 97.25 99.42

de 98.39 97.09 97.19 99.51

es 98.54 97.52 97.75 99.54

tr 95.91 93.85 94.66 97.00

uk 97.81 96.24 96.70 99.29

it 98.31 97.69 97.68 99.42

ro 96.45 95.14 95.88 98.79

O mais rápido em sua categoria

Por ser mais leve do que a maioria dos modelos da categoria, o Mistral OCR tem um desempenho significativamente mais rápido do que seus pares, processando até 2.000 páginas por minuto em um único nó. A capacidade de processar documentos rapidamente garante aprendizado e aprimoramento contínuos, mesmo em ambientes de alto rendimento.

Doc-as-prompt, saída estruturada

O Mistral OCR também introduz o uso de documentos como prompts, permitindo instruções mais poderosas e precisas. Esse recurso permite que os usuários extraiam informações específicas de documentos e as formatem em saídas estruturadas, como JSON. Os usuários podem encadear as saídas extraídas em chamadas de função downstream e criar agentes. Veja este exemplo de notebook.

Disponível para auto-hospedagem em uma base seletiva

Para organizações com requisitos rigorosos de privacidade de dados, o Mistral OCR oferece uma opção de auto-hospedagem. Isso garante que as informações confidenciais ou classificadas permaneçam seguras em sua própria infraestrutura, proporcionando conformidade com os padrões regulatórios e de segurança. Se o senhor quiser explorar a auto-implantação conosco, entre em contato conosco.

Casos de uso

Estamos capacitando nossos clientes beta a elevar o conhecimento organizacional, transformando seus extensos repositórios de documentos em ações e soluções. Alguns dos principais casos de uso em que nossa tecnologia está causando um impacto significativo incluem:

Digitalização de pesquisas científicas: As principais instituições de pesquisa têm experimentado o Mistral OCR para converter artigos e periódicos científicos em formatos prontos para IA, tornando-os acessíveis aos mecanismos de inteligência downstream. Isso facilitou uma colaboração mensuravelmente mais rápida e acelerou os fluxos de trabalho científicos.

Preservação do patrimônio histórico e cultural: Organizações e organizações sem fins lucrativos que são guardiãs do patrimônio têm usado o Mistral OCR para digitalizar documentos e artefatos históricos, garantindo sua preservação e tornando-os acessíveis a um público mais amplo.

Agilização do atendimento ao cliente: Os departamentos de atendimento ao cliente estão explorando o Mistral OCR para transformar documentação e manuais em conhecimento indexado, reduzindo os tempos de resposta e melhorando a satisfação do cliente.

Tornar a literatura nos setores de design, educação, jurídico etc. Pronta para IA: O Mistral OCR também tem ajudado as empresas a converter literatura técnica, desenhos de engenharia, anotações de palestras, apresentações, registros regulatórios e muito mais em formatos indexados e prontos para respostas, desbloqueando inteligência e produtividade em milhões de documentos.

Experimente hoje mesmo

Os recursos de OCR da Mistral podem ser testados gratuitamente no Le Chat. Para experimentar a API, vá até a Plateforme. Gostaríamos muito de receber seu feedback; espere que o modelo continue a melhorar ainda mais nas próximas semanas. Como parte de nossos programas de envolvimento estratégico, também ofereceremos a implementação no local em uma base seletiva.

Please share our article, every link counts!
Mail Logo
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2025 03 > O Mistral OCR converte com precisão documentos complexos em arquivos editáveis com IA
David Chien, 2025-03-11 (Update: 2025-03-11)