Salesforce analyse les clés de la fiabilité des agents d’IA pour …

Salesforce analyse les clés de la fiabilité des agents d’IA pour ...



L’intérêt des agents d’IA, systèmes capables d’effectuer des tâches à la place des humains, est évident, avec des opportunités de gains de productivité, notamment pour les entreprises. Cependant, les performances des grands modèles de langage (LLM) peuvent entraver le déploiement efficace des agents. Lune étude de Salesforce vise à résoudre ce problème.

Ce premier rapport intitulé « Salesforce AI Research in Review », met en lumière les innovations de l’entreprise technologique, notamment les nouveaux développements fondamentaux et les articles de recherche du trimestre dernier. Salesforce espère que ces éléments contribueront au développement d’agents IA fiables et performants, capables de performer dans les environnements professionnels.

Le problème : une intelligence irrégulière

Si vous avez déjà utilisé des modèles d’IA pour des tâches simples du quotidien, vous serez peut-être surpris par la banalité de certaines de leurs erreurs. Plus étonnant encore, le même modèle qui a mal répondu à vos questions de base a obtenu d’excellents résultats lors de tests comparatifs évaluant ses capacités dans des domaines très complexes, tels que les mathématiques, les sciences, la technologie, l’ingénierie et les mathématiques (STEM) et le codage. Ce paradoxe est ce que Salesforce appelle « l’intelligence irrégulière ».

Salesforce souligne que cette « irrégularité », ou l’écart entre l’intelligence brute d’un LLM et les performances réelles constantes, constitue un défi particulier pour les entreprises qui exigent des performances opérationnelles constantes, notamment dans des environnements imprévisibles. Pour résoudre ce problème, il faut d’abord le quantifier, ce qui met en lumière un autre enjeu. C’est précisément la question à laquelle répond le nouveau benchmark SIMPLE de Salesforce.

Benchmarks

L’ensemble de données publiques SIMPLE comprend 225 questions de raisonnement simples à répondre pour un humain, mais difficiles à comparer ou à quantifier pour l’IA en raison de la complexité du LLM. Pour vous donner une idée de la simplicité de ces questions, la fiche de l’ensemble de données de Hugging Face décrit les problèmes comme étant « résolus par au moins 10 % des lycéens avec un stylo, du papier à volonté et une heure de temps. »

Bien qu’il ne teste pas de tâches extrêmement complexes, le benchmark SIMPLE devrait aider les utilisateurs à comprendre comment un modèle peut raisonner dans des environnements et applications réels, notamment lors du développement d’intelligence générale d’entreprise (EGI). Ces systèmes d’IA performants gèrent les applications métier de manière fiable.

Un autre avantage du benchmark est qu’il devrait renforcer la confiance des dirigeants dans l’implémentation de systèmes tels que les agents d’IA au sein de leurs entreprises car ils auront une bien meilleure idée de la cohérence des performances du modèle.

Un autre benchmark développé par Salesforce est ContextualJudgeBench, qui adopte une approche différente, en évaluant les juges IA plutôt que les modèles eux-mêmes. Les benchmarks de modèles d’IA utilisent souvent des évaluations réalisées par d’autres modèles d’IA. ContextualJudgeBench se concentre sur les LLM qui évaluent d’autres modèles, partant du principe que si l’évaluateur est fiable, ses évaluations le seront également. Le benchmark teste plus de 2 000 paires de réponses.

CRMArena

Au cours du dernier trimestre, Salesforce a lancé CRMArena, un outil d’analyse comparative des agents. Ce cadre évalue la manière dont les agents IA exécutent les tâches de gestion de la relation client (CRM), notamment la synthèse des courriels et des transcriptions de vente, les recommandations commerciales, etc.

CRMArena vise à répondre au problème des organisations qui ignorent l’efficacité des modèles pour des tâches métier pratiques. Au-delà des tests complets, le framework devrait contribuer à améliorer le développement et les performances des agents d’IA.

Autres mentions importantes

Le rapport complet inclut des recherches complémentaires visant à améliorer l’efficacité et la fiabilité des modèles d’IA. Voici un résumé très simplifié de certains de ces points forts :

SFR-Embedding

Salesforce a amélioré son modèle SFR-Embedding, qui convertit les informations textuelles en données structurées pour les systèmes d’IA, tels que les agents. L’entreprise a également ajouté SFR-Embedding-Code, une famille de modèles spécialisés dans l’intégration de code.

SFR-Guard

Une famille de modèles entraînés sur les données pour évaluer les performances des agents IA dans des domaines d’activité clés, tels que la détection de toxicité et l’injection rapide.

xLAM

Salesforce a mis à jour sa famille xLAM (Large Action Model) avec « la prise en charge des conversations multi-tours et une gamme plus large de modèles plus petits pour une meilleure accessibilité ».

TACO

Cette famille de modèles multimodaux génère des chaînes de pensée et d’action (CoTA) pour résoudre des problèmes complexes en plusieurs étapes.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.