L’open source et l’intelligence artificielle entretiennent une relation difficile. La seconde ne peut exister sans le premier, mais peu d’entreprises souhaitent ouvrir le code source de leurs programmes d’IA ou de leurs grands modèles de langage (LLM). À l’exception notable d’IBM, qui avait précédemment ouvert le code source de ses modèles Granite.
Et Big Blue redouble d’efforts pour mettre en œuvre son IA open source avec la publication de ses derniers modèles Granite AI 3.0 sous licence Apache 2.0.
IBM a utilisé des données de pré-entraînement provenant d’ensembles de données accessibles au public, tels que GitHub Code Clean, les données Starcoder, les référentiels de code publics et les problèmes GitHub. Et l’entreprise a fait de gros efforts pour éviter d’éventuels soucis de droits d’auteur ou juridiques.
Les LLM Granite sont conçus pour une utilisation commerciale
Pourquoi d’autres grandes entreprises d’IA n’ont-elles pas fait de même ? L’une des principales raisons est que leurs ensembles de données sont remplis d’éléments protégés par des droits d’auteur ou d’autres droits de propriété intellectuelle. Si elles ouvrent leurs données, elles s’exposent à des poursuites judiciaires. Par exemple, des publications de News Corp telles que le Wall Street Journal et le New York Post poursuivent Perplexity pour avoir volé leur contenu.
Les modèles Granite, en revanche, sont des LLM spécifiquement conçus pour des cas d’utilisation commerciale, avec un fort accent sur la programmation et le développement de logiciels.
IBM affirme que ces nouveaux modèles ont été formés sur trois fois plus de données que ceux publiés plus tôt cette année. Ils offrent également une plus grande flexibilité de modélisation et prennent en charge les variables externes et les prévisions continues.
Des variantes de Granite pour l’apprentissage et la détection des risques
Les nouveaux modèles de langage Granite 3.0 8B et 2B sont conçus comme des modèles « bêtes de somme » pour l’IA d’entreprise, offrant des performances robustes pour des tâches telles que la génération augmentée de récupération (RAG), la classification, la synthèse, l’extraction d’entités et l’utilisation d’outils.
Ces modèles existent également en variantes Instruct et Guardian. La première, comme son nom l’indique, aide des personnes à apprendre une langue particulière. Guardian est conçue pour détecter les risques dans les prompts des utilisateurs et les réponses de l’IA.
C’est essentiel car, comme l’a fait remarquer l’expert en sécurité Bruce Schindler lors de la conférence Secure Open-Source Software (SOSS) Fusion, « les attaques par injection d’invites fonctionnent parce que j’envoie à l’IA des données qu’elle interprète comme des commandes », ce qui peut conduire à des réponses désastreuses.
Une nouvelle version de Watsonx
Les modèles de code Granite vont de 3 à 34 milliards de paramètres et ont été formés sur 116 langages de programmation et 3 à 4 téraoctets de jetons, combinant des données de code étendues et des ensembles de données en langage naturel
Ces modèles sont accessibles par plusieurs plateformes, notamment Hugging Face, GitHub, Watsonx.ai d’IBM et Red Hat Enterprise Linux (RHEL) AI. Un ensemble organisé de modèles Granite 3.0 est également disponible sur Ollama et Replicate.
En outre, IBM a publié une nouvelle version de son assistant de code Watsonx pour le développement d’applications. Granite fournit une assistance au codage à usage général dans des langages tels que C, C++, Go, Java et Python, avec des capacités avancées de modernisation des applications pour les applications Java d’entreprise. Les capacités de code de Granite sont désormais accessibles avec une extension de Visual Studio Code, IBM Granite.Code.
Une ouverture pour le développement et l’utilisation de l’IA
La licence Apache 2.0 autorise à la fois la recherche et l’utilisation commerciale, ce qui constitue un avantage considérable par rapport à d’autres LLM majeurs, qui peuvent prétendre être open source mais lier leurs LLM à des restrictions commerciales. L’exemple le plus notable est celui du Llama de Meta.
En rendant ces modèles librement disponibles, IBM réduit les barrières à l’entrée pour le développement et l’utilisation de l’IA. IBM pense également, à juste titre, que parce qu’ils sont véritablement open source, les développeurs et les chercheurs peuvent rapidement développer et améliorer les modèles.
IBM affirme également que ces modèles peuvent offrir des performances comparables à des modèles beaucoup plus grands et beaucoup plus chers.
Source : ZDNET.com