• Aller au contenu
  • Aller au menu
  • Aller à la recherche

CPU ⬜ Carré Petit Utile

CPU

Carré, Petit, Utile : Le programme radio des gens du numérique.
Tous les Jeudi à 11h sur Radio <FMR>

  • Programmes
  • Interviewes
  • Chroniques
  • Chercher
  • Suivez-nous !
  • CPU
  • ⬜
  • Chroniques
  • ›
  • Légende
  • ›
  • Légende : Le mauvais bouton d'arrêt
  • ⬜
  • suivant →

Légende : Le mauvais bouton d'arrêt

vendredi 26 octobre 2018. Chroniques › Légende

  • bugs
  • humour
  • serveur
  • situation de crise
  • sécurité
  • vie privée

Extrait de l'émission CPU release Ex0094 : Crie si tu sais… I.

En 1999, on avait tous peur du Bug de l'An Deux Mille. Ce bug qui allait à coup sûr nous plonger dans le noir, faire s'effondrer les ascenseurs et nous faire revenir en l'an 1900.
En 1999, c'est aussi la première année de Jeremy dans une vraie équipe technique, l'équipe informatique d'un très très gros éditeur, avec des moyens conséquents, des schémas de décisions précis et des enjeux financiers sur les grandes décisions informatiques.

Avec son équipe, il travaillait pour s'assurer la conformité An 2000 de toute l'entreprise. S'assurer que le bug n'aurait aucune prise, jusqu'à la multiprise qui devait être safe.

Il fallait planifier, contrôler chaque élément, des feuilles de tableurs jusqu'au BIOS des routeurs réseaux.

Et donc Jeremy est descendu avec ses collègues dans la salle serveur, des serveurs déjà passés de mode, mais qui travaillaient vaillamment et sans faille pour l'entreprise, avec leurs entrées de courant redondées et leur plan d'amortissement comptables sur 5 ans.
Ces serveurs avec un bouton Power qui était planqué dans un tout petit trou, accessible qu'avec un trombone, un tournevis ou un stylo. Le constructeur avait prévu d'éviter qu'en se retournant, d'un coup de coude, on éteigne un serveur par erreur. Le bouton à deux positions était volontairement difficile à manipuler, car il était le point unique qui pouvait tout couper, malgré les deux arrivées de courant.

Il fallait appliquer des patches sur les Windows NT et les BIOS des serveurs, les uns après les autres, sur tous les serveurs du petit data-center. Il fallait donc prévenir les utilisateurs de ce serveur par un e-mail comme quoi l'Intervention planifiée allait avoir lieu, puis sur la console cliquer sur Démarrer pour éteindre chaque Windows, et quand Windows te dit vaillamment que tu peux éteindre la machine tranquillement puisque même les disques durs sont parqués, à ce moment-là tu peux aller sur le serveur appuyer sur le tout petit bouton pour couper le jus.
Puis tu enfonce à nouveau le tout petit bouton pour remettre le courant et ramener à la vie le serveur, que son Windows finisse l'installation des patches pendant le démarrage, et quand le serveur a bien redémarré, s'il redémarre bien, il faut écrire à tous les usagers du serveur que celui-ci est revenu à la normale.

Un cycle d'opérations à faire pour chaque serveur, pour chaque blade de la baie. Et pour chaque baie de la salle serveur.

Ils avaient passé le centième serveur sans encombre. Jeremy dit pour la centième fois à son collègue Sam OK tu peux éteindre celui-là.
Horreur ! Jeremy s'était trompé. Il ne regardait pas l'état du serveur 112 mais du 113 ! Le serveur qu'il indiquait à Sam était un serveur SAP de production, celui qui assurait toute la compta, la tréso, les commandes, les expéditions de toute la boite.

Et vu comment SAP était à l'époque, s'il était brutalement interrompu, les bases de données pouvaient être irrémédiablement crashées, totalement irrécupérables, ce qui signifiait revenir au dernier back-up qui datait de…

OK, vaut mieux pas perdre la base de données.

Heureusement, quand Jeremy s'en est rendu compte, Sam appuyait encore sur le bouton.

— Reste appuyé !
— Hein ?
— Reste appuyé sur le bouton ! Je me suis trompé, c'est pas du tout le bon serveur !

Su ce modèle de serveur, quand il est allumé et qu'on appuie sur le petit bouton pour l'éteindre, le courant continue à circuler tant qu'on a pas relâché le bouton jusqu'à ce qu'il se trouve en position off.
Donc, tant qu'on reste appuyé dessus, le serveur reste allumé.
Et donc, tant que quelqu'un maintient le bouton poussoir, le serveur SAP n'est pas brusquement éteint.

Il a fallut appeler en urgence chaque utilisateur des applications SAP de l'entreprise, leur demander qu'ils se déconnectent dans l'immédiat...

Et resté crispé à appuyer sur ce satané bouton avec le trombone.

Sauf que…
Sauf que le service comptable devait impérativement finir la déclaration annuelle. Et comme chaque année, les patrons et les commerciaux avaient attendu le dernier moment pour fourni leurs notes de frais, qu'il fallait tout saisir dans l'exercice comptable courant.
Les heures furent longues . Sam, celui qui maintenait le bouton allumé, commençait à cramper... la nuit arriva, puis passa, puis une autre journée... Et quand enfin le service compta eu terminé, il fallait que les administrateurs SAP interviennent pour exécuter une procédure d'extinction spécifique en 243 checkpoints…

On dit le bras de Sam qui maintenait le bouton était tellement crispé par la rigidité cadavérique qu'ils furent obligés de retirer son corps pour effectivement éteindre le serveur, une opération malaisée dans l'espace exigu, et pas uniquement à cause de l'odeur.

Jeremy se souvient encore du vertige car il a interverti les serveurs 112 et 113, du râle de son collègue Sam… Sois maudit… et depuis, il est hanté chaque nuit. Même après le réveillon de l'An 2000… Même 18 ans après…

Auteur : DaScritch, d'après Sysadmin left finger on power button for an hour to avert SAP outage
Photo : Blade center, par Bugeater CC BY

Pièces jointes

  • 0094-CPU-Legende-MauvaisBouton(25-10-18).mp3

Aucun commentaire

Ajouter un commentaire

Le code HTML est affiché comme du texte et les adresses web sont automatiquement transformées. Votre e-mail ne sera pas affiché.

Menu

Catégories

  • Programmes
  • Interviewes
  • Chroniques
    • Enfant du futur immédiat
    • Ainsi naquit
    • Artefact du passé
    • Feedback
    • Histoire
    • How to
    • La mascotte
    • Le Gourou
    • Lexique
    • Plantage
    • Standard
    • Archéologie du Futur
    • Légende
    • Paillasse du design
  • Hors micro
  • Teaser

Séries

  • Arrière-guichet
  • Au service informatique de Sa Majesté
  • Bio is the new Black
  • Bulletin de santé d´Internet 2017
  • Crie si tu sais…
  • Elles codent
  • Futurs alternatifs
  • Histoires de la cryptographie
  • Killed By App
  • Langages machine
  • lost and found
  • Made in Japan 日本製
  • Paranoid android
  • Parce que c’est Notre Projet Souverain
  • Quelque chose de totalement différent
  • Radio numérique
  • Read That Funky Manual !
  • Recycle
  • Situation critique
  • Webmasters

Toutes les séries

Mots-clés

  • communication
  • communauté
  • politique
  • infrastructure
  • développement
  • design
  • matériel
  • standard
  • organisation
  • logiciel
  • sécurité
  • éducation
  • électronique
  • éthique
  • maker
  • humour
  • marketing
  • prototypage
  • web
  • vie privée

Tous les mots-clés

Menu extra

Suivez-nous !

  • 🎵 Podcast des émissions
  • 🎧 …pour Android
  • 🎧 …via Apple Podcast
  • 🎧 …via Google Podcast
  • 🎧 …en newsletter
  • Comment faire

Réseaux sociaux

  • @cpu@Mastodon.tetaneutral.net
  • BlueSky @cpu.pm
  • Xwitter @CPUprogramme
  • LinkedIn company/cpuprogramme
  • Facebook /programmecpu
  • Nous écrire par e-mail

Développeurs

  • Da Scritch
  • Enflammée
  • Gabriel
  • Infested Grunt
  • Solarus
  • René Speranza
  • Toute l'équipe

Producteurs

  • Radio <FMR>
  • Silicium
  • Ça Fait Écho
  • Régie publicitaire

Code source (github)

  • CPU-Audio web component
  • Thème Dotclear "CPU-15"
  • CPU podcaster
  • Youtube future playlist

Pages juridiques

  • Documentation du programme
  • Licence de l'émission et des sonores
  • Politique de confidentialité 🍪
  • Mentions légales

Interviewes et chroniques en licence CC-BY-NC ⬜ Émissions © DaScritch et l'équipe pour Radio <FMR> ⬜ Propulsé par Dotclear