Jeudi, la société Encord a annoncé de nouvelles capacités d’annotation de données multimodales pour la classification de données audio et de documents – le tout dans une seule interface. Cette mise à jour s’ajoute à la prise en charge existante d’Encord pour les données médicales, de vision par ordinateur et vidéo.
C’est une avancée car en matière d’IA, si les chatbots et les générateurs d’images sont relativement courants, il est beaucoup plus difficile de générer des données vidéo ou audio. L’industrie de l’IA se concentre donc de plus en plus sur les capacités multimodales, en particulier avec l’apparition de fonctionnalités telles que le mode vocal de ChatGPT.
Pour affiner un modèle d’IA, vous avez besoin de données de qualité. Et parfois de données hyper-spécifiques. Les données textuelles n’apportent pas la nuance dont ces modèles complexes ont besoin. Et pourtant la précision est d’autant plus importante dans des contextes à fort enjeu comme la médecine. Surtout, les constructeurs ont besoin de plateformes capables d’annoter et d’évaluer toutes sortes de données – vidéo, audio, images, graphiques, rapports, listes de détaillants, PDF, etc. Plusieurs clients d’Encord utilisent par exemple la plateforme pour des images médicales telles que des IRM afin de développer de meilleurs modèles pour aider les médecins.
Encord
Annotation et curation pour les documents, les fichiers audio, la vision et les données médicales
Disposer de données audio de haute qualité et bien annotées permet de construire des modèles de reconnaissance de la parole et des émotions. Et même d’identifier des sons. Les produits d’IA vidéo et audio ont besoin d’un support de données de plus en plus sophistiqué pour atteindre un réalisme proche de l’humain, qu’il s’agisse de la transcription ou de la précision de la synchronisation labiale. Par exemple, la plateforme d’IA texte-vidéo Synthesia utilise Encord pour développer des modèles d’entraînement pour ses avatars d’IA réalistes.
Les nouveautés d’Encord comprennent de nouvelles fonctions d’annotation et de curation pour les documents, les fichiers audio, la vision et les données médicales. Grâce à l’annotation multimodale, les équipes d’IA peuvent personnaliser une interface pour examiner et modifier différents types de fichiers côte à côte.
Actuellement, les différents types de données sont souvent cloisonnés entre plusieurs services et plateformes, ce qui augmente le temps et les coûts d’annotation des données. Encord prend déjà en charge des catégories clés d’annotation de données telles que la reconnaissance d’entités, la traduction, le résumé, la classification de textes et l’analyse de sentiments.
Filtrer les données pour identifier et conserver exactement ce dont on a besoin pour construire un modèle
« Le manque d’intégration et d’interface cohérente pour unifier ces outils cloisonnés fait que les équipes perdent du temps et sont souvent dans l’impossibilité d’avoir une visibilité sur les ensembles de données à grande échelle tout au long du développement du modèle », a déclaré la société dans son communiqué de presse.
Avec Encord, les équipes d’IA peuvent filtrer leurs données pour identifier et conserver exactement ce dont elles ont besoin pour construire un modèle. Son tableau de bord d’évaluation peut également signaler les données qui entravent les performances d’un modèle afin que les équipes puissent les supprimer ou les remplacer.
« En moyenne, les clients d’Encord utilisent des ensembles de données 35 % plus petits, ce qui permet aux modèles d’être 20 % plus précis », a déclaré un représentant d’Encord à ZDNET par courrier électronique.
Lors d’une démonstration, Ulrik Stig Hansen, cofondateur et président d’Encord, a déclaré à ZDNET qu’il considérait que l’accent mis par l’entreprise sur la qualité et la centralisation permettrait à terme de mettre en place une intelligence générale artificielle (AGI).