Peut-on maîtriser la surabondance de données inadéquates ou douteuses qui circulent dans les modèles d’intelligence artificielle ? L’efficacité de l’IA est entravée par des biais, des données polluées et, en fin de compte, par l’incertitude.
Certains spécialistes de l’IT ont quelques idées pour mettre de l’ordre dans ces données.
Si les données sont le nouveau pétrole, alors l’IA, « qui a besoin de beaucoup de données, est un gaspilleur de données« , explique à ZDNET Andy Thurai, analyste principal chez Constellation Research. La consommation de gros volumes de données risque d’entraîner une perte de qualité dans le processus. Ce qui crée des problèmes de confiance envers l’IA.
Une perte de confiance envers l’IA
Une enquête menée par Salesforce auprès de 6 000 employés révèle que les trois quarts d’entre eux n’ont pas confiance dans les données qui servent à former l’IA avec laquelle ils travaillent.
Une autre enquête menée récemment par Fivetran auprès de 550 dirigeants de grandes entreprises estime que les entreprises perdent en moyenne 6 % de leur chiffre d’affaires annuel, soit 406 millions de dollars, en raison de modèles d’IA peu performants (construits à partir de données inexactes ou de mauvaise qualité). Ce qui se traduit par des prises de décisions incorrectes.
Et les organisations qui utilisent de grands modèles de langage (LLM) signalent des inexactitudes dans 50 % des cas.
Curation des données et contrôle qualité
Pour remédier à ces lacunes, il faut procéder à la curation des données et à un contrôle qualité. Ce qui prend beaucoup de temps à des personnes qui devraient se concentrer sur les problèmes de l’entreprise. « La plupart des scientifiques des données passent du temps à stocker ou à manipuler des données plutôt qu’à créer et à tester des modèles réels« , ajoute M. Thurai.
Surtout, de nombreuses données sont encore nécessaires pour alimenter le moteur de l’IA. Le problème est que « lorsque vous alimentez les modèles d’IA et de ML avec des données partielles, vous n’obtenez qu’une vue partielle de l’entreprise« , explique M. Thurai.
« Bien que les entreprises produisent plus que suffisamment de données, celles-ci sont encore très fragmentées entre les business unit, les plateformes et les centres de données. »
Un contrôle rigoureux est essentiel
L’autre problème est que les organisations se lancent tête baissée dans l’IA. « De nombreuses entreprises sont trop désireuses de lancer des technologies sans fournir les efforts nécessaires, comme la résolution des problèmes de qualité des données« , dit à ZDNET Michael Heath, ingénieur en chef chez SHI International. « Sans de solides pratiques de gouvernance et de gestion des données, les organisations risquent d’amplifier les erreurs et de générer des informations peu fiables. »
La gouvernance des données impose un effort collectif pour s’assurer que les bonnes données sont transmises aux bonnes personnes. Et que les données en question sont pertinentes, sécurisées et ont de la valeur.
L’identification des données essentielles pour l’IA et les modèles d’entraînement constitue un autre défi. Ces données essentielles – telles que définies par Neda Nia, chef de produit pour Stibo Systems – sont des données « bien gérées et qui donnent le résultat le plus optimal pour former des modèles de machine learning« .
Junaid Saiyed, DT chez Alation explique que « la complexité du traitement des données dans l’IA exige des cadres de gouvernance robustes. »
La qualité l’emporte sur la quantité
Bien entendu, des données de haute qualité ne surgissent pas de nulle part. « Le principal défi lié au maintien de données de haute qualité réside dans la nature imprévisible des exigences« , a déclaré Mme Nia.
Parmi les questions qui se posent, citons :
- « Qu’est-ce qui constitue des données prêtes pour l’IA ?
- Quels modèles futurs auront besoin de données spécifiques ?
- Jusqu’à quand les données doivent-elles être conservées pour un traitement optimal dans les modèles ?
« Cela pose un défi de taille. Comment pouvons-nous anticiper les exigences futures dans un environnement en constante évolution ? » ajoute M. Nia.