Extrait de l'émission CPU release Ex0224 : Synthèse vocale, première partie.
Bonjour à toi, Enfant du Futur Immédiat, toi qui a ouvert tes esgourdes pour m'écouter déblatérer. Le sujet d'aujourd'hui est la synthèse vocale, ce qui veut dire qu'on va parler dans le dos des machines, critiquer leur accent, leur intonation et surtout leur manière pédante de ne pas parler avec notre bel accent régional, nom d'une chocolatine !
Faire parler des machines comme un humain n'a rien de neuf, c'est même plus vieux que l'informatique : Dès le XVIIIème siècle, des inventeurs tentèrent de reproduire mécaniquement la voix humaine, ou plus exactement de trouver une manière synthétique de produire des voyelles, et de les enchaîner pour former des mots.
À peu près.
Il fallait autant d'imagination pour comprendre ce que tentait de vous dire l'opérateur que pour utiliser l'engin à brailler.
Et déjà, on s'oriente vers des modélisations empiriques du larynx pour produire ces voyelles à travers des espèces de sifflets d'orgue.
Fin du XIXème siècle, un inventeur se spécialise dans la manière de permettre à des sourds de percevoir des sons et de tenter de s'exprimer oralement. Ce spécialiste de l'élocution, Alexander Graham Bell, tente de faire de la synthèse vocale avec un piano, mais devant les limites de la mécanique, il se tourne vite vers l'électricité. Son nom vous dit quelque chose puisque ses recherches dans le domaine l'amèneront à créer le téléphone en 1876.
Et oui ! Cet Alexander Graham Bell, dont le nom de famille deviendra synonyme aux États-Unis du plus grand laboratoire privé de recherche, les Bell Labs, lié au monopole des télécoms AT&T.
Quant à ses tentatives de synthèse vocale par l'électricité, on pourrait y voir un ancêtre de la musique électronique que popularisera un demi-siècle plus tard Léon Theremin.
L'électrique et l'électronique vont faciliter la création de sons. Mais c'est clairement l'informatique qui va aider à mieux synthétiser la voix humaine : en modulant les sons différemment, en accentuant, en associant mots et phonèmes, en combinant les mots et grâce à la plasticité d'un logiciel par rapport à des circuits pré-câblés.
Enfant du Futur Immédiat, tu n'es pas sans savoir qu'aujourd'hui, la synthèse vocale est partout : dans les services téléphoniques interactifs (faites l'étoile sur le clavier
), dans les ascenseurs (ding.... zéro nième étage, sous-sol terrasse... 5 secondes d'arrêt , attention à la marche.
) dans le système de guidage GPS (tournez à droite. ah non. tournez à gauche en grillant le feu rouge et priez
), dans l'assistance de lecture aux personnes aveugles (“Celui qui lira ceci est un idiot.” Ah ben merci. Je m'en souviendrais. Moi aussi, j'aime rire.
), dans la traduction automatisée (win, the yes needs the no to win against the no
) et dans la demande de rançon pour le kidnapping de tes jouets préférés... (fais tes devoirs et tu reverras ton Sudoku électronique
).
La synthèse vocale est devenue un outil d'accessibilité ou de résolution à des contraintes matérielles, puisqu'il permet d'ajouter des informations complexes avec un minimum de composants. Et pratiquement tous les systèmes d'exploitations proposent au moins une bibliothèque de synthèse vocale en standard.
D'ailleurs, y'a même une API Javascript du W3C pour faire de la synthèse vocale directement depuis un navigateur web !
Enfant du Futur Immédiat, je voudrais revenir sur un usage particulièrement touchant de la synthèse vocale, avec un cas de clonage de voix d'humain : celui de la voix de Charles Biétry.
Cet homme a perdu l'usage de la parole suite à une maladie longue et invalidante, la sclérose en plaques, et plaide pour son droit à mourir. Un journaliste radio et télé sportif ultra-reconnu qui ne peut plus parler, mais qui souhaitait s'exprimer publiquement de sa propre voix sur un débat de société qui le concerne.
Bonsoir Monsieur le Président, je suis Charles Biétry, atteint par lamaladie de Charcot depuis 8 ans et le sachant depuis 3 ans. Ma vie a été très belle, je voudrais bien que ma mort la soit aussi.
[Extrait de la soirée d'entretien avec Emmanuel Macron « Les défis de la France », Mardi 13 Mai 2025 sur TF1]
Qu'on apprécie ou pas l'individu, qu'on soit révolté ou non sur les dérapages éventuels de cette loi, il a le droit d'exprimer son opinion sur le sujet. En clonant sa voix avec les archives audiovisuelles, la synthèse vocale et l'IA ont permis qu'il parle publiquement… pour une question de dignité.
Textes : Da Scritch
Les voix synthétisées ont été générées avec le logiciel espeak et MacOS.
Illustrations sonores : Jean-Pierre Raffarin - « The yes needs the no», archive INA, D.R. / extrait de la série « Le cœur a ses raisons », sketch Brenda et le répondeur / Elevator(Lift) door open & close, CC-By DISK / car idle, CC Joni Suominen, Charles Biétry s'adressant à Emmanuel Macron dans l'émission « Les défis pour la France », 13/05/2025. © TF1, D.R.
Illustration : Capture d'écran du clip « Music non stop » par Kraftwerk. D.R.