Le NLP n’a pas disparu, éclipsé par les LLM, les grands modèles de langage tels que ceux commercialisés par OpenAI, Microsoft, Google ou Mistral. Dans le domaine du traitement du langage naturel, le modèle BERT constitue une référence.
Conçu par Google, il a aussi été décliné dans une version française au travers de CamemBERT. LightOn, éditeur français de la GenAI entré récemment en bourse, ajoute une nouvelle déclinaison de BERT avec ModernBERT.
ModernBERT conçu avec Orange, Answer.AI et HPE
Le modèle est présenté comme “une version modernisée et optimisée” de BERT. Il est le fruit d’une collaboration entre la startup et Answer.AI visant à proposer “une avancée majeure dans le traitement des données et la valorisation des bases documentaires.”
ModernBERT “allie des performances accrues et une latence réduite tout en optimisant les flux de travail internes et en maîtrisant les coûts liés à l’utilisation des modèles de langage”, mentionnent encore les deux partenaires.
Pour son entraînement, LightOn s’est appuyé sur l’infrastructure d’Orange (Cloud Avenue), l’opérateur avec lequel l’éditeur a signé un accord en 2024. Un second partenaire a été associé au projet, l’Américain HPE.
Gains sur la recherche d’information et la classification
La startup décrit son nouveau modèle comme intégrable rapidement avec les outils métiers existants et adapté aux entreprises des secteurs sensibles. En termes de caractéristiques, le développeur met en avant une amélioration des performances sur la recherche d’information et la classification.
Il cite également la capacité de ModernBERT “à analyser des données volumineuses, incluant des documents complexes et du code.” A l’image de BERT, et contrairement aux LLM de grande taille, le modèle est prévu pour fonctionner en on-premise.
Là aussi, l’éditeur cible les industries sensibles en leur proposant un mode d’hébergement “garantissant un contrôle total des données dans des environnements sécurisés.” Le modèle de NLP est enfin valorisé sur le critère de la réduction des coûts.
Alternative techno et éco aux LLM GPT
ModernBERT permet une « diminution du coût total de possession (TCO) grâce à des processus d’inférence et d’adaptation rapides, même avec des ressources limitées”, assure LightOn. Il se combine à du RAG (Retrieval Augmented Generation) et du génératif.
Les technologies génératives ne sont pas systématiquement la seule ou la meilleure réponse. Pour des cas d’usage à grande échelle, le modèle constitue une alternative aux LLM de type GPT , “souvent onéreux et gourmands en ressources”.
“ModernBERT constitue une alternative performante et économique” dans cette configuration, souligne LightOn. En association avec du RAG, le modèle permet ainsi de combiner “la recherche d’informations pertinentes et leur transmission à un modèle génératif”. Résultat : “des réponses contextualisées et précises.”