accélérateur pour l’IA ou catastrophe en c …

accélérateur pour l'IA ou catastrophe en c ...



South by Southwest (Austin, Texas) – Avec l’essor de l’IA générative, les images et les textes synthétiques sont devenus monnaie courante. Mais connaissez-vous les données synthétiques ? Comme leur nom l’indique, ces données sont générées artificiellement et utilisées pour remplacer des données réelles.

Elles sont utilisées par exemple pour entraîner des modèles d’IA dans les domaines de la santé, de la finance, de l’industrie automobile.

Les données synthétiques font tellement partie intégrante de la révolution numérique que South by Southwest (SXSW) a organisé une session sur l’IA intitulée « Impact des données synthétiques sur l’IA et l’avenir ».

Les avantages des données synthétiques

Les données synthétiques permettent de simuler des informations du monde réel dans des situations où la collecte de données réelles serait trop coûteuse, prendrait trop de temps ou pourrait poser des problèmes de confidentialité. Par exemple lorsqu’il s’agit d’informations financières sensibles.

La popularité croissante des données synthétiques s’explique en grande partie par le rôle de plus en plus important qu’elles jouent dans l’entraînement et le perfectionnement des modèles d’apprentissage automatique. Ce qui est devenu de plus en plus crucial compte tenu du développement rapide de ces modèles au cours de l’année écoulée.

« Avec ChatGPT, Gemini, Claude, DeepSeek et n’importe lequel de ces modèles, les données d’entraînement comprennent très probablement une étape de génération synthétique », a déclaré Mike Hollinger, directeur Enterprise Gen AI chez NVIDIA.

Les données synthétiques sont particulièrement précieuses pour les modèles d’IA, car ils nécessitent des ensembles de données importants, diversifiés et de haute qualité pour un entraînement efficace. Ce qui peut être difficile à obtenir. C’est particulièrement vrai lorsqu’il s’agit de cibler des niches, des données propriétaires ou originales qui ne sont pas facilement accessibles par le biais du scraping de données publiques.

Dans un rapport publié la semaine dernière, le cabinet d’études Gartner a identifié les données synthétiques comme l’une des principales tendances en matière de données et d’analyse pour 2025. Plus précisément, le rapport encourage l’utilisation de données synthétiques pour compléter les domaines où la connaissance est manquante ou incomplète. Ou pour remplacer les données sensibles afin de donner la priorité à la protection de la vie privée.

Les risques des données synthétiques

Pour créer des données synthétiques, des algorithmes complexes prennent un ensemble de données originales et reproduisent les modèles, les structures et les autres caractéristiques trouvés dans ces données. Cependant, comme pour tout autre résultat de l’IA, il existe un risque de déviation qui peut avoir un impact significatif.

Pour illustrer cette idée, Mike Hollinger a utilisé l’exemple du nombre d’heures de la journée le jour de la conférence. Une question délicate car, techniquement, le dimanche, il y a 23 heures en raison de l’heure d’été.

Si un échantillon de données était prélevé au hasard tout au long de l’année, il serait possible que l’un des jours sélectionnés soit celui d’une ville où l’on change d’heure d’été et où il y a une heure de moins. Un pipeline de données synthétiques construit à partir de cet échantillon aurait donc effacé la précision du modèle.

Par conséquent, lors de la construction d’ensembles de données synthétiques, il est impératif que les données soient ancrées dans le monde réel afin d’éviter ce type d’incongruités. Toutefois, même en prenant cette mesure et en tenant compte de l’entropie, il est souvent difficile de garantir la précision, assure Oji Udezue, CPO chez Typeform.

Au-delà des défis techniques, l’un des plus grands obstacles à surmonter sera de gagner la confiance des utilisateurs lorsqu’ils utiliseront des données synthétiques comme source. Pour instaurer cette confiance, il est important de faire preuve de transparence sur la manière dont les données synthétiques sont générées, validées et appliquées.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.