Amazon lève le voile sur Nova Sonic, un modèle vocal empreint d’h …

Amazon lève le voile sur Nova Sonic, un modèle vocal empreint d'h ...



Amazon a annoncé sur son site officiel le lancement du modèle « Nova Sonic », intégré à sa plateforme Amazon Bedrock. Ce modèle est destiné à être utilisé dans des services d’IA vocale dans des secteurs tels que le service client, les voyages, la santé et l’éducation.

Un modèle unique

Jusqu’à présent, les applications vocales nécessitaient la combinaison de modèles distincts pour des fonctions spécifiques, comme la reconnaissance vocale, le traitement du texte et la génération vocale. Cela compliquait le système et limitait la fluidité et le contexte des conversations.

Nova Sonic est conçu pour capturer le contexte de la voix, l’intonation et même le style de parole dans un modèle unique. Ce système reconnaît les informations acoustiques d’une voix d’entrée et génère une réponse en temps réel, capable de percevoir et de réagir aux nuances d’une conversation, comme les hésitations, les pauses et les changements de ton.

Par exemple, un assistant de voyage basé sur Nova Sonic pourrait ajuster son ton et ses réponses en fonction des émotions de l’utilisateur.

Intégration et rapidité de réponse

Nova Sonic inclut également des capacités de transcription de texte. Cette fonctionnalité permet aux développeurs d’intégrer des API externes basées sur les données vocales ou de créer des services combinant divers outils. Cela ouvre la voie à des tâches complexes, comme la recherche de vols en temps réel, la réservation de billets ou l’automatisation des réponses dans le service client.

Amazon a souligné que la vitesse d’inférence de Nova Sonic est particulièrement rapide. Contrairement aux modèles de langage de grande taille (LLM), Nova Sonic est optimisé pour une réactivité en temps réel, ce qui permet une intégration aisée, même dans des environnements d’entreprise.

L’entreprise a également indiqué que Nova Sonic représente « l’une des premières tentatives pour gérer à la fois la compréhension et la génération de la parole dans un seul modèle », et qu’il « ouvre la voie aux futures technologies d’IA vocale ».



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.