Le modle GPT-4o prsente un risque « moyen », selon la dernire valuation d’OpenAI Qui met en lumire ses efforts pour attnuer les risques potentiels lis son dernier modle d’IA multimodale

OpenAI vient de publier la fiche systme de GPT-4o. Le document met en lumire les efforts d’OpenAI pour attnuer les risques potentiels associs son dernier modle d’IA multimodale. Selon cette valuation, GPT-4o prsente des risques « faibles » pour la cyberscurit, les menaces biologiques, ainsi que pour l’autonomie du modle. Sur le plan de la persuasion, au moment de son lancement, GPT-4o prsentait un risque « faible », mais depuis, le modle a t rpertori avec un risque « moyen ».

En Juillet dernier, OpenAI a lanc GPT-4o mini, un petit modle d’IA conomique, 60 % moins cher par rapport GPT-3.5 Turbo, visant amliorer l’accessibilit et l’abordabilit. GPT-4o mini avait obtenu un score de 82 % sur MMLU et surpasse actuellement GPT-4 sur les prfrences de chat dans le classement LMSYS. En termes de scurit, OpenAI annonait plusieurs mesures intgres GPT-4o mini pour faire face aux risques tels que les contenus nuisibles et les vulnrabilits du systme. Ces mesures comprennent le filtrage du contenu et des techniques avances pour attnuer les problmes tels que les jailbreaks et les injections d’invite.

OpenAI vient de publier la fiche systme de GPT-4o, un document de recherche dtaill dcrivant les protocoles de scurit et les valuations des risques menes avant le lancement public du modle en mai. Ce document met en lumire les efforts dploys par OpenAI pour attnuer les risques potentiels lis son dernier modle d’IA multimodale.

Avant le lancement, OpenAI a utilis une pratique standard consistant faire appel des « red teamers » externes, des experts en scurit chargs d’identifier les vulnrabilits d’un systme. Ces experts ont explor les risques potentiels associs GPT-4o, tels que le clonage vocal non autoris, la gnration de contenu inappropri et la violation des droits d’auteur.

Sur la base du cadre interne d’OpenAI, les chercheurs ont class GPT-4o comme prsentant un niveau de risque « moyen« . Cette valuation globale du risque est drive de l’valuation du risque individuel le plus lev dans quatre catgories cls : cyberscurit, menaces biologiques, persuasion et autonomie du modle. Toutes les catgories ont t juges faible risque, l’exception de la persuasion, pour laquelle certains chantillons de texte gnrs par le GPT-4o prsentaient un potentiel de persuasion suprieur celui des textes quivalents rdigs par des humains.

« Cette fiche systme comprend des valuations de l’tat de prparation cres par une quipe interne, ainsi que par des testeurs externes rpertoris sur le site web d’OpenAI comme Model Evaluation and Threat Research (METR) et Apollo Research, qui ralisent tous deux des valuations pour les systmes d’IA« , a expliqu Lindsay McCallum Rmy, porte-parole d’OpenAI.

Cette publication fait suite des publications similaires de fiches systmes pour des modles prcdents tels que GPT-4, GPT-4 avec vision et DALL-E 3, dmontrant l’engagement d’OpenAI la transparence et la collaboration externe dans l’valuation de ses systmes d’IA.

Le moment choisi pour cette publication est particulirement important, car OpenAI fait face des critiques constantes concernant ses pratiques en matire de scurit. Des proccupations ont t souleves par des employs internes et des parties prenantes externes, y compris une lettre ouverte rcente de la snatrice Elizabeth Warren et de la reprsentante Lori Trahan demandant plus de responsabilit et de transparence dans les processus d’valuation de la scurit d’OpenAI.

La publication d’un modle multimodal trs performant comme le GPT-4o proximit de l’lection prsidentielle amricaine soulve des inquitudes quant au risque de dsinformation et d’exploitation malveillante. La fiche systme d’OpenAI vise rpondre ces proccupations en soulignant les efforts proactifs de l’entreprise pour attnuer ces risques grce des tests de scnarios en situation relle.

Malgr les efforts d’OpenAI, les appels une plus grande transparence et un contrle externe persistent. L’attention s’tend au-del des donnes de formation pour englober l’ensemble du processus d’essai de scurit. En Californie, une lgislation est en cours pour rglementer les grands modles de langage, notamment en tenant les entreprises responsables des dommages potentiels causs par leurs systmes d’IA.

Voici les conclusions d’OpenAI sur la scurit de son modle GPT-4o :

OpenAI a mis en uvre diverses mesures de scurit et d’attnuation tout au long du processus de dveloppement et de dploiement de GPT-4o. Dans le cadre de notre processus de dploiement itratif, nous continuerons surveiller et mettre jour les mesures d’attnuation en fonction de l’volution du paysage. Nous esprons que cette fiche systme encouragera l’exploration de domaines cls tels que, sans s’y limiter, les mesures et les actions d’attnuation de la robustesse des omni-modles, les impacts lis l’anthropomorphisme de l’IA, l’utilisation des omni-modles pour la recherche et le progrs scientifiques, les mesures et les actions d’attnuation des capacits dangereuses telles que l’auto-amlioration, l’autonomie du modle et la schmatisation. Au-del de ces domaines, nous encourageons la recherche sur les impacts conomiques des omni-modles et sur la manire dont l’utilisation d’outils peut faire progresser les capacits des modles.