Ce qu’ils peuvent faire vous et commen …

Ce qu'ils peuvent faire vous et commen ...



Weiquan Lin/Getty Images

Pouvez-vous distinguer un humain d’un robot ? Dans une enquête, Podcastle, créateur de services vocaux d’IA, a constaté que deux personnes sur trois ne parvenaient pas à deviner si une voix était humaine ou générée par l’IA. Cela signifie que les voix d’IA sont de plus en plus difficiles à distinguer des voix de personnes réelles.

Pour les entreprises qui souhaiteraient s’appuyer sur la génération de voix artificielles, c’est prometteur. Pour le reste d’entre nous, c’est un peu terrifiant.

La synthèse vocale n’est pas une nouveauté

De nombreuses technologies d’IA datent de plusieurs décennies. Mais dans le cas de la voix, la synthèse vocale existe depuis des siècles. Ce n’est pas nouveau.

Par exemple, je vous invite à consulter le document Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine, datant de 1791. Ce document explique comment Johann Wolfgang Ritter von Kempelen de Pázmánd a utilisé des soufflets pour créer une machine parlante dans le cadre de son célèbre canular d’automates, Le Turc. C’est ainsi qu’est né le terme « turc mécanique ».

Une synthèse vocale par ordinateur a donné au physicien Stephen Hawking sa voix. Cette voix a été construite à l’aide d’un ordinateur de bureau de 1986, fixé à son fauteuil roulant. Il ne l’a jamais remplacé par quelque chose de plus moderne. Il a déclaré : « Je la garde parce que je m’identifie à elle ».

Les logiciels de synthèse vocale ne sont pas non plus nouveaux. Dans les années 1980, la TI 99/4 intégrait la synthèse vocale dans certaines cartouches de jeu. Et l’Apple II avait une synthèse vocale.

La plupart de ces implémentations, jusqu’au milieu des années 2010, utilisaient des phonèmes de base pour créer la parole de synthèse. Tous les mots peuvent être décomposés en environ 24 consonnes et 20 voyelles. Ces sons étaient synthétisés ou enregistrés, puis, lorsqu’un mot devait être « prononcé », les phonèmes étaient assemblés dans l’ordre et reproduits.

Cela fonctionnait. C’était fiable et efficace. Mais cela ne ressemblait pas à Alexa ou Siri.

Les voix d’IA d’aujourd’hui

Aujourd’hui, grâce aux technologies d’IA et à une puissance de traitement bien supérieure, la synthèse vocale peut ressembler à de véritables voix. En fait, la génération de voix d’IA d’aujourd’hui peut créer des voix qui ressemblent à celles de personnes que nous connaissons. Ce qui peut être une bonne ou une mauvaise chose. Examinons ces deux aspects.

1. Escroqueries vocales

En janvier, un fournisseur de services vocaux a effectué des milliers d’appels téléphoniques frauduleux en utilisant une voix générée par l’IA et ressemblant à celle du président Joe Biden.

La voix disait aux électeurs que s’ils votaient aux primaires de l’État, ils ne seraient pas autorisés à voter aux élections générales de novembre.

Ce type de fausse déclaration est illégal et le fournisseur de services vocaux a accepté de payer une amende d’un million de dollars à l’État.

2. Création de contenu et clonage de voix

Ce processus, appelé clonage de voix, a des applications à la fois pratiques et malveillantes. Par exemple, le service de montage vidéo Descript dispose d’une fonction d’overdub qui permet de cloner votre voix. Ensuite, si vous modifiez une vidéo, il peut doubler votre voix sur vos modifications. De sorte que vous n’ayez pas à revenir en arrière et à réenregistrer les changements que vous avez apportés.

Le logiciel de Descript synchronise même les mouvements de vos lèvres, de sorte que vous avez l’impression de dire ce que vous tapez dans l’éditeur.

Je passe beaucoup trop de temps à éditer et à refaire des erreurs vidéo. Je comprends donc l’intérêt de cette solution. Mais je ne peux m’empêcher d’imaginer le mal que cette technologie peut aussi faire.

Avec le clonage vocal et l’IA générative, maman pourrait recevoir un appel de sa fille Jane. Et la voix ressemblera vraiment à celle de Jane. Après une brève conversation, maman constatera que Jane est bloquée au Mexique et qu’elle a besoin de milliers d’euros pour rentrer chez elle. C’était bien la voix de Jane, alors maman a envoyé l’argent. Il s’avère que Jane va très bien et qu’elle ignore tout de l’escroquerie dont sa mère est victime.

Ajoutez en plus la synchronisation labiale. Vous pouvez désormais prédire l’explosion des fausses escroqueries à l’enlèvement. Pourquoi prendre le risque de capturer un étudiant en voyage à l’étranger alors qu’une vidéo complètement bidon suffirait ?

Est-ce que cela fonctionne tout le temps ? Non, mais ce n’est pas nécessaire. C’est tout de même effrayant.

3. Aides à l’accessibilité

Mais tout n’est pas si sombre. Si la recherche nucléaire a donné naissance à la bombe, elle a également ouvert la voie à la médecine nucléaire. Ce qui a permis de sauver d’innombrables vies.

Tout comme le vieux PC de 1986 a donné sa voix au professeur Hawking, la génération vocale moderne basée sur l’IA aide les patients d’aujourd’hui. La chaîne NBC a publié un reportage sur une technologie développée à l’université de Davis qui permet à un patient atteint de sclérose de retrouver la parole.

Le projet utilise :

  • Des implants cérébraux qui traitent les schémas neuronaux
  • L’IA qui convertit ces schémas en mots que le patient souhaite prononcer
  • Un générateur de voix d’IA qui parle avec la voix réelle du patient.

La voix du patient atteint de sclérose a été clonée à partir d’enregistrements de sa voix avant que la maladie ne lui ôte la capacité de parler.

4. Agents vocaux pour le service client

L’IA dans les centres d’appel est un sujet très délicat. En fait, c’est le sujet même des centres d’appel qui est délicat. Il y a le sentiment d’impersonnalité que l’on ressent lorsqu’on doit se frayer un chemin dans un arbre d’appel. Et la frustration ensuite de devoir attendre encore 40 minutes avant de pouvoir joindre un agent.

Il y a ensuite la frustration de traiter avec un agent qui n’est manifestement pas formé ou qui travaille à partir d’un script qui ne répond pas à votre problème. Il y a aussi la frustration qui survient lorsque vous et l’agent ne pouvez pas vous comprendre en raison de votre compréhension de la langue.

Et combien de fois avez-vous été déconnecté parce qu’un agent de premier niveau ne parvenait pas à vous transférer à un responsable ?

Oui, l’IA dans les centres d’appel peut vraiment vous aider

Mais l’IA dans les centres d’appels peut aider. J’ai récemment été confronté à une IA alors que je devais résoudre un problème technique. J’avais déjà rempli un ticket d’aide. Et j’ai attendu une semaine avant d’obtenir une réponse assez peu utile. L’assistance vocale n’était pas disponible. Par frustration et un peu par curiosité, j’ai finalement décidé de cliquer sur le bouton « AI Help ».

Il s’est avéré qu’il s’agissait d’une IA très bien formée, capable de répondre à des questions techniques assez complexes et de comprendre et de mettre en œuvre les modifications de configuration dont mon compte avait besoin. Il n’y a pas eu d’attente et mon problème, qui s’était envenimé pendant plus d’une semaine, a été résolu en… 15 minutes environ.

Un autre exemple est celui de Fair Square Medicare. Cette société utilise des assistants vocaux pour aider les personnes âgées à choisir le bon régime d’assurance maladie. L’assurance maladie est complexe et les choix ne sont pas évidents. Les personnes âgées sont souvent dépassées par les choix qui s’offrent à elles. Fair Square a mis au point une plateforme vocale d’IA générative basée sur GPT-4 qui peut guider les personnes âgées tout au long du processus.

Certes, il est parfois agréable de pouvoir parler à un être humain. Mais si vous n’êtes pas en mesure d’entrer en contact avec un être humain compétent et serviable, l’IA pourrait bien être une alternative viable.

5. Assistants intelligents

Viennent ensuite les assistants intelligents tels qu’Alexa, Google et Siri. Pour ces produits, la voix est l’élément central du produit. Siri, lorsqu’il est arrivé sur le marché en 2011, était incroyable en termes de capacités. Alexa, en 2014, était également impressionnant.

Bien que les deux produits aient évolué, les éléments d’intelligence artificielle semblent avoir stagné.

Aucun des deux produits ne peut rivaliser avec les capacités de chat vocal de ChatGPT, en particulier avec ChatGPT Plus et GPT-4o. La version de l’assistant vocal de ChatGPT est étonnante.

Il peut assurer des conversations complètes, obtenir des réponses (même si elles sont parfois inventées), et suivre les directives de la conversation.

Si la qualité de la voix d’Alexa (et, dans une moindre mesure, de Siri et de Google Assistant) est bonne, les intonations vocales de ChatGPT sont plus nuancées.

Bien entendu, la reconnaissance vocale est l’une des autres fonctions les plus remarquables des assistants vocaux. Ces appareils sont équipés de microphones qui leur permettent non seulement de distinguer les voix humaines des bruits de fond. Mais aussi d’entendre et de traiter la parole humaine, du moins suffisamment pour créer des réponses.

Comment fonctionne la génération de voix par l’IA ?

Heureusement, la plupart des programmeurs n’ont pas besoin de développer leur propre technologie de génération de voix à partir de zéro. La plupart des grands acteurs du cloud proposent des services de génération vocale d’IA qui fonctionnent comme un microservice ou une font tourner une API à partir de votre application. Il s’agit notamment de Google Cloud Text-to-Speech, d’Amazon Polly, d’Azure AI Speech de Microsoft, du framework vocal d’Apple, etc.

  • En termes de fonctionnalités, les générateurs de parole commencent par du texte.
  • Ce texte peut être généré par un rédacteur humain ou par une IA comme ChatGPT.
  • Ce texte est ensuite converti en langage humain, qui sont des ondes audio pouvant être entendues par l’oreille humaine et les microphones.
  • Nous avons déjà parlé des phonèmes. Les IA traitent le texte généré et effectuent une analyse phonétique, produisant des sons vocaux qui représentent les mots du texte.

Comment sont formées les IA spécialisées dans la synthèse vocale ?

Côté formation des IA spécialisées, les réseaux neuronaux (code qui traite les modèles d’information) utilisent des modèles d’apprentissage profond pour ingérer et traiter d’énormes ensembles de données de la parole humaine. À partir de ces millions d’exemples de discours, l’IA peut modifier les sons de base des mots pour refléter l’intonation, l’accentuation et le rythme, ce qui rend les sons plus naturels et holistiques.

Certains générateurs de voix d’IA personnalisent ensuite le résultat, en ajustant la hauteur et le ton pour représenter différentes voix et même en appliquant des accents qui reflètent la parole provenant d’une région particulière.

Pour l’instant, l’application pour smartphone de ChatGPT n’offre pas cette possibilité, mais vous pouvez demander à Siri et à Alexa d’utiliser des voix différentes ou des voix provenant de différentes régions.

Comment fonctionne la reconnaissance vocale ?

La reconnaissance vocale fonctionne à l’envers. Elle doit capturer les sons et les transformer en texte qui peut ensuite être introduit dans une technologie de traitement comme ChatGPT ou le back-end d’Alexa.

Comme pour la génération de voix, les services de cloud proposent des capacités de reconnaissance vocale. Les services de synthèse vocale de Microsoft et de Google mentionnés plus haut ont également des capacités de reconnaissance vocale. Amazon distingue la reconnaissance vocale de la synthèse vocale dans son service Amazon Transcribe.

Les étapes de fonctionnement de la reconnaissance vocale

  • La première étape de la reconnaissance vocale est l’analyse des ondes sonores.
  • Les ondes sonores captées par un microphone sont converties en signaux numériques, à peu près l’équivalent de fichiers WAV.
  • Ce signal numérique passe ensuite par une étape de prétraitement au cours de laquelle les bruits de fond sont supprimés et tout son reconnaissable est divisé en phonèmes.
  • L’IA tente également d’extraire des caractéristiques, en identifiant la fréquence et la hauteur du son. L’IA s’en sert pour clarifier les sons qu’elle considère comme des phonèmes.
  • Vient ensuite la phase de mise en correspondance des modèles, au cours de laquelle l’IA utilise de vastes ensembles de données entraînées pour faire correspondre les segments sonores extraits à des modèles de discours connus.
  • Ces modèles de discours passent ensuite par le traitement du langage, où l’IA rassemble toutes les données qu’elle peut trouver pour convertir les sons en mots et en phrases textuelles.
  • Elle utilise également des modèles grammaticaux pour aider à arbitrer les sons douteux, en composant des phrases qui ont un sens linguistique.
  • Enfin, tout cela est converti en texte qui est utilisé soit comme entrée pour d’autres systèmes, soit transcrit et affiché à l’écran.

Cela a-t-il répondu à vos questions sur la génération vocale par IA, son utilisation et son fonctionnement ? Avez-vous d’autres questions ? Pensez-vous utiliser la génération vocale d’IA dans votre flux de travail normal ou dans vos propres applications ? N’hésitez pas à nous en faire part dans les commentaires ci-dessous.

Source : « ZDNet.com »



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.