Extrait de l'émission CPU release Ex0224 : Synthèse vocale, première partie.
Boston, 30 Janvier 1984. Devant un public archi-enthousiaste, Steve Jobs sort d'un sac le premier Macintosh, le branche sur scène, exhibe une disquette de sa veste, l'insère, ce qui lance un premier slide-show. Puis, Steve dit :
[Steve Jobs] — Et maintenant, laissons le Macintosh parler de lui-même.
[MacIntosh en V.O.] — Hello, I am Macintosh. It sure is great to get out of that bag!
[MacIntosh, traduit] — Hello, je suis Macintosh. Ça fait du bien de sortir de ce sac !
Lorsque Steve Jobs présente le tout premier Macintosh dans sa toute première keynote, l'ordinateur a suffisamment de capacités pour faire tourner un logiciel de synthèse vocale par défaut, sans ajout hardware (sinon la RAM, mais chuuuut !).
Non seulement la keynote du MacIntosh a été une référence sur la manière de lancer un produit, mais c'est aussi la première présentation produit d'un ordinateur grand-public démontrant une synthèse vocale out of the box
.
Steve Jobs sentait qu'une telle application serait un bel effet de manche pour la démo de son nouveau produit, et objectivement, le speech du Mac est drôle. Son petit discours est bourré de petits gags, et participe à lui donner commercialement une personnalité.
Revenons un peu en arrière. Moins de deux semaines avant la grande soirée, Steve Jobs s'est écrié :
[Steve Jobs, en V.O.] — I want the Macintosh to be the first computer to introduce itself!
[Steve Jobs, traduit] — Je veux que le Macintosh soit le premier ordinateur à se présenter lui-même !
Jobs a commissionné Mark Barton pour concevoir la synthèse vocale. Le développeur indépendant n'est pas novice en la matière et s'était déjà fait remarquer sur Apple II avec son SAM, Software Automatic Mouth. Barton porte donc SAM en assembleur Motorola pour ce qui deviendra MacinTalk. Le Mac n'a alors que 128 ko de RAM, et on doit pouvoir faire tenir dans la même disquette de 400 ko un système bootable et un logiciel. L'ordi compact n'a pas encore de gestionnaire audio, et donc son premier soft de synthèse vocale pilote directement le matériel ; on va rappeler qu'il s'agit d'une commande en rush pour que Steve Jobs roule des mécaniques sur scène la semaine suivante.
Lors du lancement de la bestiole, MacinTalk est proposé aux développeurs d'applications comme bibliothèque supplémentaire au System 1.
En 1993, Apple présente Speech Manager, ré-écriture majeure du moteur de synthèse vocale MacinTalk qui est désormais inclus par défaut dans le System 7. La bibliothèque va de pair avec la reconnaissance vocale, dans une suite de fonctions appelée PlainTalk, laquelle demande désormais un processeur 68020, qui a un peu plus de puissance que le processeur des premiers MacIntosh.
MacinTalk sur System 7 va comporter différentes voix dont Fred, Junior, Albert, Kathy, Zarvox, et Whisper. En clin d'œil à la keynote de 1984, les phrases de présentation de certaines voix comportent un petit gag.
Comment ces voix sont devenues iconiques ? Pas uniquement à cause de la pré-installation sur les Mac, mais aussi parce que le Mac a été pas mal utilisé en musique, et que son grand compétiteur dans ce domaine, l'Atari ST, n'avait pas de synthèse vocale fournie avec son système TOS.
Dans la version actuelle de MacOS, de nombreuses voix sont disponibles, et dans une multitudes de langues et d'accents, allant du Français Canadien au portugais brésilien.
27 ans après la première keynote, Steve Jobs est revenu à la présidence d'Apple, a transformé une entreprise moribonde en première capitalisation boursière. Mais en août 2011, il annonce quitter son poste de CEO pour des raisons de santé ; son successeur Tim Cook fera sa première keynote en Octobre 2011. La firme produit toujours des Macintosh mais elle concentre sa R&D sur ses iPhone.
L'iPhone a déjà fait une première révolution dans les interfaces en ayant supprimé quasiment tous les boutons d'un téléphone portable. Un projet traîne dans les labos depuis un bail, ayant pour objet de piloter un ordinateur par une simple conversation.
C'est donc lors de sa première keynote que Tim Cook présente Siri, le premier assistant vocal grand-public disponible par défaut.
[Siri] — Bonjour, je m'appelle Siri.
On s'adresse à Siri en langage naturel et Siri répond d'une voix quasi-humaine, l'utilisateur n'a même pas besoin de regarder l'écran du smartphone. Après Siri arriveront les enceintes intelligentes, qui ne sont elles aussi que des terminaux vocaux de services cloud. Google, Amazon et bien d'autres reproduiront l'idée qu'un micro et un haut-parleur suffisent largement comme interface généraliste.
Et plus on avancera dans la technologie des assistants vocaux, plus la synthèse vocale va tenter de donner une illusion d'une discussion avec un humain, par le timbre, le ton et les pauses.
Sorti deux ans après l'arrivée de Siri, le film « Her » de Spike Jones met en scène une assistante vocale, interprétée par Scarlett Johansson comme si elle jouait un personnage humain.
[Synthèse masculine] — Patientez pendant l'initialisation de votre système d'exploitation
[Samantha] — Voilà, je suis là.
[Théodore, soufflé] — Salut.
[Samantha] — Bonjour, je m'appelle Samantha.
[La musique part, on est dans le lit de Théodore]
[Samantha] — Bonjour Théodore.
[Théodore] — Bonjour.
[Samantha] — Tu as un rendez-vous dans 5 mn. Il serait peut-être temps de te lever, non ?
[Théodore] — Tu es trop marrante…
[Samantha] — Je suis marrante ? Super !…
[Extrait de la bande annonce en VF du film]
Une interprétation tellement stupéfiante, qu'OpenAI, l'éditeur de ChatGPT s'en inspirera un peu trop pour sa synthèse vocale. On reparlera de ce lapsus.
Textes : Da Scritch
Illustrations sonores : Keynote de présentation du MacIntosh, Janvier 1984 - © Apple / Vangelis - Chariots of Fire / Extrait de la bande annonce VF du film « Her » © Annapurna Pictures, Warner, Wild Bunch - D.R.
Illustration : The original Macintosh from 1984, with an extra floppy drive., CC-By Marcin Wichary