Sonar est-il vraiment plus « factuel » que ses conc …

Le moteur de recherche d’IA Perplexity affirme que sa dernière version est meilleure côté satisfaction des utilisateurs que GPT-4o d’OpenAI.

La semaine dernière, Perplexity a annoncé une nouvelle version de Sonar, son modèle propriétaire. Basée sur le modèle open-source Llama 3.3 70B de Meta, la nouvelle version de Sonar « est optimisée pour la qualité des réponses et l’expérience de l’utilisateur », affirme l’entreprise. Il a été formé pour améliorer la lisibilité et la précision de ses réponses en mode recherche.

Perplexity affirme que Sonar a obtenu de meilleurs résultats que les modèles GPT-4o mini et Claude en matière de factualité et de lisibilité. L’entreprise définit la factualité comme une mesure de « la capacité d’un modèle à répondre à des questions en utilisant des faits fondés sur des résultats de recherche, et sa capacité à résoudre des informations contradictoires ou manquantes ».

Cependant, il n’existe pas de référence externe pour mesurer cette qualité.

Des captures d’écran comme preuve

Au lieu de cela, Perplexity affiche plusieurs exemples de captures d’écran de réponses côte à côte provenant de Sonar et de modèles concurrents, notamment GPT-4o et Claude 3.5 Sonnet.

À mon avis, les réponses diffèrent en termes de clarté, d’exhaustivité et de facilité de lecture, avec une préférence pour le formatage plus propre de Sonar (une préférence subjective) et le plus grand nombre de citations – bien que cela ne soit pas directement lié à la qualité des sources, mais seulement à la quantité.

Les sources citées par un chatbot sont également influencées par les accords de partenariat avec les éditeurs et les médias de sa société mère, que Perplexity et OpenAI ont tous deux.

« Sonar surpasse largement les modèles de sa catégorie »

Plus important encore, les exemples n’incluent pas les requêtes elles-mêmes, mais seulement les réponses. Et Perplexity ne précise pas la méthodologie utilisée pour provoquer ou mesurer les réponses – différences entre les requêtes, nombre de requêtes exécutées, etc. Au lieu de cela, Perplexity laisse aux individus le soin de « voir la différence ». ZDNET a contacté Perplexity pour obtenir des commentaires.

Un des exemples de « factualité et lisibilité » de Perplexity. Perplexity

Perplexity indique que des tests A/B montrent que les utilisateurs sont beaucoup plus satisfaits et engagés avec Sonar qu’avec GPT-4o mini, Claude 3.5 Haiku et Claude 3.5 Sonnet. Mais il ne s’étend pas sur les spécificités de ces résultats.

« Sonar surpasse largement les modèles de sa catégorie, tels que GPT-4o mini et Claude 3.5 Haiku, tout en égalant ou en dépassant les performances des modèles pionniers tels que GPT-4o et Claude 3.5 Sonnet en termes de satisfaction de l’utilisateur », indique l’annonce de Perplexity.

1 200 jetons par seconde

Selon Perplexity, la vitesse de Sonar (1 200 jetons par seconde) lui permet de répondre presque instantanément aux requêtes. Et de travailler 10 fois plus vite que Gemini 2.0 Flash.

Les tests ont montré que Sonar surpassait GPT-4o mini et Claude 3.5 Haiku « par une marge substantielle ».

Mais la société ne précise pas les détails de ces tests. La société indique également que Sonar surpasse les modèles pionniers plus coûteux tels que Claude 3.5 Sonnet « tout en s’approchant des performances de GPT-4o ».

Vous voulez l’essayer vous-même ?

Sonar a battu ses deux concurrents, entre autres, dans les tests de référence universitaires IFEval et MMLU, qui évaluent la manière dont un modèle suit les instructions de l’utilisateur et sa compréhension de la « connaissance du monde » dans toutes les disciplines.

Vous voulez l’essayer vous-même ? La version améliorée de Sonar est disponible pour tous les utilisateurs Pro, qui peuvent en faire leur modèle par défaut dans leurs paramètres ou y accéder via l’API Sonar.

Source link

Des captures d’écran comme preuve

« Sonar surpasse largement les modèles de sa catégorie »

1 200 jetons par seconde

Vous voulez l’essayer vous-même ?

Laisser un commentaire Annuler la réponse