Voici un cas d’usage de l’IA qui pourrait faire bouger les lignes dans le secteur de la dématérialisation.
Jeudi, le français Mistral AI, spécialisé dans les LLM, a lancé une nouvelle API pour les développeurs qui traitent des documents PDF complexes.
Mistral OCR est une API de reconnaissance optique de caractères (OCR). Elle peut transformer n’importe quel PDF en fichier texte. Mais elle fait plus.
Une API d’OCR multimodale
Contrairement à la plupart des API d’OCR, Mistral OCR est une API multimodale. Cela signifie que cette API peut détecter – en plus du texte – la présence d’illustrations et de photos entrelacées avec des blocs de texte. L’API OCR crée ensuite des boîtes de délimitation autour de ces éléments graphiques et les inclut dans le résultat.
L’OCR Mistral ne se contente pas non plus de produire un gros mur de texte. Le résultat est formaté en Markdown, une syntaxe de formatage que les développeurs utilisent pour ajouter des liens, des en-têtes et d’autres éléments de formatage à un fichier de texte brut.
De l’OCR et du Markdown ? Mais pourquoi donc les experts de l’IA s’intéressent donc tant à la dématérialisation et à ce langage de balisage léger ?
Des données numérisées pour former les IA
Et bien parce que pour former les LLM et les SLM, il faut des données, souvent stockées sur du papier. Un OCR efficace est donc le meilleur moyen de capturer de l’information pour la transformer en donnée numérique. Mistral AI propose un nouvel OCR pour vous, certes, mais surtout pour lui permettre de mieux former ses modèles.
Mistral utilise aussi Mistral OCR pour son propre assistant IA Le Chat. Lorsqu’un utilisateur télécharge un fichier PDF, l’entreprise utilise Mistral OCR en arrière-plan pour comprendre le contenu du document avant de traiter le texte.
Côté Markdown, là aussi, les LLM s’appuient largement sur ce format pour vous livrer les informations. Le Chat de Mistral ou ChatGPT d’OpenAI, utilisent souvent du Markdown pour créer des listes à puces, ajouter des liens ou mettre certains éléments en gras.
Le coût d’usage de l’API est de « 1000 pages / $
« Au fil des ans, les organisations ont accumulé de nombreux documents, souvent au format PDF ou des slides, qui sont inaccessibles aux LLM, en particulier aux systèmes RAG. Grâce à l’OCR de Mistral, nos clients peuvent désormais convertir des documents riches et complexes en contenu lisible dans toutes les langues », a déclaré Guillaume Lample, cofondateur et directeur scientifique de Mistral. « Il s’agit d’une étape cruciale vers l’adoption des assistants IA dans les entreprises qui ont besoin de simplifier l’accès à leur vaste documentation interne », a-t-il ajouté.
Mistral OCR est disponible sur la plateforme API de Mistral ou via ses partenaires cloud (AWS, Azure, Google Cloud Vertex, etc.) Et pour les entreprises qui travaillent avec des données classifiées ou sensibles, Mistral propose un déploiement sur site de son OCR.
© Mistral AI
Mistral AI assure que son OCR est plus performant que la concurrence dans le multilingue. Mistral AI
Le coût d’usage de l’API est de « 1000 pages / $ (et environ le double de pages par dollar avec l’inférence par lots) » précise l’entreprise, qui assure que « Mistral OCR est nettement plus rapide que ses homologues, traitant jusqu’à 2 000 pages par minute sur un seul nœud ». A noter que les fonctionnalités d’OCR de Mistral peuvent être essayées gratuitement sur le Chat.
Science, service client et littérature technique
L’entreprise a aussi testé son modèle d’OCR avec des documents complexes comprenant des expressions mathématiques (formatage LaTeX), des mises en page spécifiques ou encore des tableaux. Cet OCR est également censé être plus performant avec les documents non anglophones.
Mistral AI cite aussi quelques cas d’utilisation de son outil d’OCR :
- Convertir des articles et des revues scientifiques dans des formats prêts pour l’IA afin de les rendre accessibles aux moteurs d’intelligence en aval.
- Dans le domaine du service client, transformer la documentation et les manuels en connaissances indexées, ce qui permet de réduire les temps de réponse et d’améliorer la satisfaction des clients.
- Convertir la littérature technique, les dessins techniques, les notes de cours, les présentations, les dossiers réglementaires en formats indexés, et donc recherchables.