Une stratégie populaire pour s’engager avec des chatbots d’IA générative consiste à commencer par un prompt bien conçu. Et de fait, l’ingénierie du prompt est une compétence émergente pour ceux qui souhaitent progresser dans leur carrière à l’ère de l’intelligence artificielle.
Cependant, il existe une alternative.
Pour les développeurs qui disposent d’un budget à consacrer au développement de grands modèles de langage (LLM) et d’un ensemble de données personnalisées, le « réglage fin » – ou fine tuning en anglais – d’un modèle d’IA peut être – dans certains cas – meilleur.
Soumettre un modèle d’IA à une nouvelle série d’entraînements après l’entraînement initial
Mais cette mise au point peut être coûteuse. La bonne nouvelle est qu’OpenAI a annoncé mardi proposer un fine tuning nettement moins coûteux pour son modèle d’IA GPT-4o mini, présenté la semaine dernière.
Un processus de fine tuning consiste à soumettre un modèle d’IA à une nouvelle série d’entraînements après l’entraînement initial. En téléchargeant des données et en recommençant l’entraînement, les « poids » neuronaux – ou « paramètres » – du modèle sont modifiés par rapport à la version de base.
Le résultat est un modèle dont les résultats peuvent être améliorés.
Un moyen d’orienter le prompt dans la direction souhaitée
Un réseau neuronal tel que GPT-4o mini reflète une distribution de probabilités. Et ses prédictions sont le texte le plus probable qui suit le prompt de l’utilisateur. En affinant le réglage, on modifie cette distribution de probabilités dans une certaine direction. Par conséquent, les réponses du modèle changent également.
Le fine tuning est donc un moyen d’orienter le prompt dans la direction souhaitée.
Le coût du fine tuning de GPT-4o mini commence à 3 dollars par million de jetons (token) utilisés pour l’entraînement, selon le guide des prix d’OpenAI. C’est moins de la moitié des 8 dollars que ce que cela coûte pour GPT-3.5 « Turbo ».
Deux millions de jetons gratuits par jour
OpenAI propose une offre de deux millions de jetons gratuits par jour, jusqu’au 23 septembre.
Notez toutefois que le prix d’un GPT-4o mini perfectionné est deux fois plus élevé que celui d’un GPT-4o mini générique. Soit 30 cents par million de jetons d’entrée dans le modèle et 1,20 dollar par million de jetons de sortie, c’est-à-dire les jetons que vous utilisez pour demander et recevoir des prédictions.
Outre l’avantage financier, OpenAI souligne que la quantité de données d’entraînement pouvant être introduites dans le modèle pour l’affiner est quatre fois plus importante que pour GPT-3.5, avec 65 000 jetons.
L’alternative du fine tuning de prompt est toujours une bonne idée
Il est à noter que le fine tuning n’est disponible que pour la fonctionnalité textuelle de GPT-4o mini, et non pour les tâches liées aux images.
Mais avant de procéder, il convient d’envisager d’autres options. Continuer à affiner les prompts est toujours une bonne stratégie. D’autant plus que les prompts affinés peuvent être utiles même après que le modèle lui même ait été affiné, selon la documentation d’OpenAI sur le fine tuning des prompts.
Le RAG est lui aussi toujours une bonne idée
Une autre approche pour obtenir des résultats plus personnalisés de la part des LLM consiste à utiliser la « génération augmentée par récupération » (RAG – retrieval augmented generation). Cette approche technique, de plus en plus populaire, implique que le modèle fasse appel à une source externe de données vérifiées, telle qu’une base de données.
Si la RAG peut rendre chaque requête plus lourde, en obligeant le modèle à contacter la base de données, elle présente aussi des avantages.
Car lors d’un fine tuning de modèle, il est possible que le modèle désapprenne ce qui a été acquis au cours de la phase de formation initiale. En d’autres termes, l’altération des paramètres du modèle peut avoir des conséquences négatives sur la fonctionnalité plus large et plus générale d’un modèle.
Jetez un œil aussi à l’appel de fonction
Une troisième solution, en dehors de du fine tuning et de la RAG – mais étroitement liée à la RAG – est l’appel de fonction. Dans ce cas, des questions très spécifiques peuvent être injectées dans le prompt, ainsi que l’exigence d’une forme de réponse très spécifique. Elle peut être regroupée et envoyée à une application externe sous la forme d’un appel de fonction. OpenAI et d’autres organisations parlent pour ce type de technique d’appel de fonction (function-calling), d’utilisation d’outils (tool use) et d' »IA agentique » (agentic AI).
Toutes ces approches trouveront leur place dans le processus d’optimisation, mais le fine tuning coûtera un peu moins cher avec les nouveaux prix proposés par OpenAI.
Il convient de noter que Google propose également du fine tuning de ses modèles, par l’intermédiaire de son programme Vertex AI, et que de nombreux autres fournisseurs de modèles font de même.
Le réentraînement des modèles est susceptible de devenir plus courant, et pourrait même un jour s’appliquer aux appareils mobiles, avec une puissance de calcul suffisante.
Source : « ZDNet.com »