Extrait de l'émission CPU release Ex0224 : Synthèse vocale, première partie.
On l'a rapidement abordé en introduction de cette émission, mais le monopole du téléphone aux États-Unis a donné à AT&T une rente littéralement énorme, budget dépensé entres autres à un immense groupe de recherche aux moyens industriels : Les Bell Labs.
Et dès leurs débuts, la recherche autour de la voix et de sa synthèse seront un pôle qui servira autant à des démonstrations techniques qu'à d'éventuelles applications pratiques.
Par exemple, en 1928 commencent des travaux sur le Vocoder, un appareil qui permet de mesurer la fréquence de base et ses sous-fréquences d'une voix. Lequel a donné un autre appareil en 1937, le Voder (Voice Demonstrator), un orgue électronique à recomposer des phonèmes, donc à synthétiser une voix. Comme son nom l'indique, ce n'est qu'un démonstrateur qui était prévu pour le World Fair de New-York en 1939, et sa mise en œuvre demande beaucoup d'entraînement et de patience pour maîtriser les voyelles, l'intonation, l'accentuation, et en tirer une phrase intelligible avec son clavier et son pédalier. Mais cet appareil va devenir intéressant par les modélisations techniques précises qu'il emploie pour la génération électronique de la voix.
Mais cette année-là, l'Europe puis le monde s'embrase. Le vocoder aura un usage pour chiffrer les messages radios de l'armée américaine. Le voder, lui, passera la guerre sous une bâche.
À la sortie de la Seconde Guerre mondiale, les Bell Labs sont toujours plus puissants et vont acheter plusieurs ordinateurs.
On parle de machines qui sont très coûteuses, qui prennent la place d'immeubles entiers, qui tournent encore en tubes à vides, à la puissance extrêmement modeste et où tous les logiciels étaient encore à écrire, jusqu'à l'OS. Mais les Bell Labs débordent d'argent et peuvent donc laisser des équipes de chercheurs en explorer les possibilités.
Et l'un d'entre eux, l'IBM 704, sorti en 1954, va faire parler de lui. Non pas uniquement parce qu'il est un des premiers modèles à pouvoir faire des calculs en virgule flottante, mais parce que les génies des Bell Labs vont lui faire faire de la musique, le faire parler et... le faire chanter.
Ainsi naquit : La synthèse vocale
Max Mathews va ainsi écrire le programme MUSIC, qui permet de faire de la synthèse sonore, l'un des tout premiers à générer des formes d'ondes à la demande.
Et dès qu'il libère le pupitre, le physicien John Larry Kelly et le neuropsychologue Louis Gerstman peuvent plonger dessus pour explorer la voix de synthèse. Finalement, l'équipe synthèse vocale aura un ordinateur un petit peu plus récent, un IBM 7094, qui n'a plus des tubes à vides mais des transistors, une autre invention des Bell Labs. Le système démontré par le Voder passe désormais par la transcription d'une phrase écrite en phrase sonore, simplifiant grandement le dispositif.
Et outre avoir fait parlé le gros barebone bleu, l'équipe s'amuse à lui faire chanter une petite ritournelle écrite à la fin du XIXème siècle : « Daisy Bell ».
C'est un acte de recherche pure, qui n'était pas censé avoir d'application pratique, juste de quoi épater des happy fews et conforter le statut de multinationale innovante à AT&T devant les caméras de télévision du monde entier.
Écoutons donc l'IBM 7094 chanter « Daisy Bell », programmé par Carol Lockbaum et John Larry Kelly, accompagné par l'IBM 704 du labo d'à côté pour la musique, programmé par Max Mathews.
Deux ordinateurs pour la performance que vous venez d'écouter, alors qu'il ne devait pas en avoir plus d'un millier dans le monde.
La petite histoire murmure que le chercheur et écrivain de science-fiction Arthur C. Clarke a assisté en 1961 à une démo privé en allant voir un copain qui travaillait aux Bell Labs. Celle-ci l'a suffisamment marquée pour qu'il y fasse référence dans le film « 2001 : l'Odyssée de l'Espace » qu'il a co-écrit avec Stanley Kubrick.
Attention, spoiler alert : la citation a lieue quand l'astronaute David Bowman lobotomise carte fille par carte fille l'ordinateur HAL 9000 ; ce dernier régresse jusqu'à chanter « Daisy Bell », lui rappelant dans sa trépanation ses origines insouciantes quand il était un multi-processeur innocent.
Et là, autre trigger warning, je diffuse cet extrait de souffrance informatique, désolé aux IA que je choque.
[Extrait du film. Le sonore a été altéré pour réduire le bruit du respirateur afin de faciliter l'audition de la chanson]
« Daisy Bell » deviendra par cette scène le « Hello World » de la synthèse de chant, l'exercice obligé pour prouver qu'on répond à minima à l'exercice.
D'ailleurs, maintenant, il suffit d'écrire à un LLM genre ChatGPT fais moi une cover métal de Daisy Bell
, et l'IA fera tout le travail de composition, instrumentalisation, interprétation et mixage pour donner ceci. On notera qu'il a très librement réinterprété les paroles, ce qui ne correspond pas aux canons de l'exercice.
Textes : Da Scritch
Illustrations sonores : Daisy Bell, archives Bell Labs / extrait « 2001 : l'Odyssée de l'Espace » © MGM, D.R.
Photo : Man and woman working with IBM type 704 electronic data processing machine used for making computations for aeronautical research. Langley NACA, domaine public, NASA