Extrait de l'émission CPU release Ex0094 : Crie si tu sais… I.
En 1999, on avait tous peur du Bug de l'An Deux Mille. Ce bug qui allait à coup sûr nous plonger dans le noir, faire s'effondrer les ascenseurs et nous faire revenir en l'an 1900.
En 1999, c'est aussi la première année de Jeremy dans une vraie
équipe technique, l'équipe informatique d'un très très gros éditeur, avec des moyens conséquents, des schémas de décisions précis et des enjeux financiers sur les grandes décisions informatiques.
Avec son équipe, il travaillait pour s'assurer la conformité An 2000 de toute l'entreprise. S'assurer que le bug n'aurait aucune prise, jusqu'à la multiprise qui devait être safe
.
Il fallait planifier, contrôler chaque élément, des feuilles de tableurs jusqu'au BIOS des routeurs réseaux.
Et donc Jeremy est descendu avec ses collègues dans la salle serveur, des serveurs déjà passés de mode, mais qui travaillaient vaillamment et sans faille pour l'entreprise, avec leurs entrées de courant redondées et leur plan d'amortissement comptables sur 5 ans.
Ces serveurs avec un bouton Power qui était planqué dans un tout petit trou, accessible qu'avec un trombone, un tournevis ou un stylo. Le constructeur avait prévu d'éviter qu'en se retournant, d'un coup de coude, on éteigne un serveur par erreur. Le bouton à deux positions était volontairement difficile à manipuler, car il était le point unique qui pouvait tout couper, malgré les deux arrivées de courant.
Il fallait appliquer des patches sur les Windows NT et les BIOS des serveurs, les uns après les autres, sur tous les serveurs du petit data-center. Il fallait donc prévenir les utilisateurs de ce serveur par un e-mail comme quoi l'Intervention planifiée allait avoir lieu, puis sur la console cliquer sur Démarrer
pour éteindre chaque Windows, et quand Windows te dit vaillamment que tu peux éteindre la machine tranquillement puisque même les disques durs sont parqués, à ce moment-là tu peux aller sur le serveur appuyer sur le tout petit bouton pour couper le jus.
Puis tu enfonce à nouveau le tout petit bouton pour remettre le courant et ramener à la vie le serveur, que son Windows finisse l'installation des patches pendant le démarrage, et quand le serveur a bien redémarré, s'il redémarre bien, il faut écrire à tous les usagers du serveur que celui-ci est revenu à la normale.
Un cycle d'opérations à faire pour chaque serveur, pour chaque blade de la baie. Et pour chaque baie de la salle serveur.
Ils avaient passé le centième serveur sans encombre. Jeremy dit pour la centième fois à son collègue Sam OK tu peux éteindre celui-là
.
Horreur ! Jeremy s'était trompé. Il ne regardait pas l'état du serveur 112 mais du 113 ! Le serveur qu'il indiquait à Sam était un serveur SAP de production, celui qui assurait toute la compta, la tréso, les commandes, les expéditions de toute la boite.
Et vu comment SAP était à l'époque, s'il était brutalement interrompu, les bases de données pouvaient être irrémédiablement crashées, totalement irrécupérables, ce qui signifiait revenir au dernier back-up qui datait de…
OK, vaut mieux pas perdre la base de données.
Heureusement, quand Jeremy s'en est rendu compte, Sam appuyait encore sur le bouton.
— Reste appuyé !
— Hein ?
— Reste appuyé sur le bouton ! Je me suis trompé, c'est pas du tout le bon serveur !
Su ce modèle de serveur, quand il est allumé et qu'on appuie sur le petit bouton pour l'éteindre, le courant continue à circuler tant qu'on a pas relâché le bouton jusqu'à ce qu'il se trouve en position off
.
Donc, tant qu'on reste appuyé dessus, le serveur reste allumé.
Et donc, tant que quelqu'un maintient le bouton poussoir, le serveur SAP n'est pas brusquement éteint.
Il a fallut appeler en urgence chaque utilisateur des applications SAP de l'entreprise, leur demander qu'ils se déconnectent dans l'immédiat...
Et resté crispé à appuyer sur ce satané bouton avec le trombone.
Sauf que…
Sauf que le service comptable devait impérativement finir la déclaration annuelle. Et comme chaque année, les patrons et les commerciaux avaient attendu le dernier moment pour fourni leurs notes de frais, qu'il fallait tout saisir dans l'exercice comptable courant.
Les heures furent longues . Sam, celui qui maintenait le bouton allumé, commençait à cramper... la nuit arriva, puis passa, puis une autre journée... Et quand enfin le service compta eu terminé, il fallait que les administrateurs SAP interviennent pour exécuter une procédure d'extinction spécifique en 243 checkpoints…
On dit le bras de Sam qui maintenait le bouton était tellement crispé par la rigidité cadavérique qu'ils furent obligés de retirer son corps pour effectivement éteindre le serveur, une opération malaisée dans l'espace exigu, et pas uniquement à cause de l'odeur.
Jeremy se souvient encore du vertige car il a interverti les serveurs 112 et 113, du râle de son collègue Sam… Sois maudit…
et depuis, il est hanté chaque nuit. Même après le réveillon de l'An 2000… Même 18 ans après…
Auteur : DaScritch, d'après Sysadmin left finger on power button for an hour to avert SAP outage
Photo : Blade center, par Bugeater CC BY