Hébergement : OVH s’excuse et invoque la loi de Murphy

0

La semaine dernière, OVH a souffert d’un grave problème dans un de ses datacenters parisiens. Au total, plusieurs dizaines de milliers de sites ont terminé hors ligne pendant une période prolongée, tandis que les équipes de l’hébergeur européen faisaient de leur mieux pour récupérer les données client. Entre-temps, OVH poursuivait sa communication à l’intention de ses clients via sa page dédiée aux incidents, mais les différentes mises à jour laissaient les observateurs perplexes. L’hébergeur semblait évoquer tout d’abord une fuite d’eau, puis un problème avec les baies propriétaires EMC du datacenter, avant de finalement dédouaner le constructeur.

Des explications un peu plus détaillées et mieux construites s’imposaient donc, et OVH s’exécute aujourd’hui en publiant un post de blog exhaustif et détaillé revenant sur l’origine du problème rencontré le 28 juin. Comme l’explique OVH, la panne a bien été causée par un problème de Watercooling ayant touché une baie de serveurs propriétaires EMC, mais le problème a par la suite été aggravé par une défaillance du système d’alerte des employés du datacenter.

Un enchaînement de catastrophes qui pousse les auteurs du post à invoquer la célèbre loi de Murphy: « un emmerdement suivant un autre emmerdement est souvent plus ennuyeux que s’il était seul, et la somme de ces deux emmerdements tend vers une courbe exponentielle. » Autrement dit : quand ça va mal, ça ne s’arrange généralement pas tout seul, bien au contraire.

Baywatch, mais sans Pamela

« À 18 h 48, le jeudi 29 juin, dans la salle 3 du datacenter P19, en raison d’une fissure sur un tuyau en plastique souple de notre système de watercooling, une fuite de liquide de refroidissement entraîne la présence de fluide dans l’une des deux baies de stockage propriétaires, lesquelles n’étaient pas refroidies par ce procédé, mais se trouvaient à proximité immédiate. Cela a eu pour conséquence directe la détection d’un défaut électrique entraînant l’arrêt complet de la baie » explique OVH. Les « baies de stockage propriétaires » étaient des baies de stockage EMC, qu’OVH avait malencontreusement placé à proximité d’une autre installation disposant d’un refroidissement par watercooling. La situation particulière du datacenter P19, dont les installations sont souterraines, empêchait d’avoir recours à un refroidissement sans eau de type Freecooling.

En plus de ce premier incident, un second problème est intervenu : OVH dispose d’un système d’alerte maison, qui a recours à une voix synthétique afin d’alerter les employés du datacenter lorsqu’un incident grave est détecté par les sondes. Malheureusement, celui-ci n’a pas fonctionné correctement. Une mise à jour du système avait été réalisée afin de le porter dans plusieurs langues, internationalisation oblige. Mais cette update n’a pas produit les résultats attendus et a entraîné un bug du système d’alerte, qui a conduit les employés à intervenir sur la baie en question plus de dix minutes après le début de l’incident.

Le jour le plus long

Une fois le technicien sur place, c’est le début d’une longue nuit blanche pour les équipes d’OVH qui constatent alors l’étendue des dégâts. La baie touchée par la fuite d’eau est hors service et l’hébergeur n’a d’autre choix que de faire immédiatement rapatrier une baie similaire depuis Roubaix sur le site de Paris afin de remettre en place les disques de stockage. Une seconde équipe se charge de restaurer les données à partir des sauvegardes journalières mises en place par OVH sur l’ensemble de son système.

À 23h 40 le vendredi soir, OVH achève de restaurer tant bien que mal ses services, soit un peu plus de 24h après le déclenchement des évènements. Autant dire que les équipes ont probablement fait des heures sup. OVH s’excuse pour cette panne et promet « un geste commercial » à destination des clients.

L’hébergeur en tire également plusieurs conclusions sur son organisation interne. OVH explique ainsi vouloir tendre vers toujours plus d’open source dans son infrastructure et se débarrasser autant que faire se peut des équipements propriétaires, sur lequel l’hébergeur explique ne pas avoir une maîtrise complète.

mm

Gérant de ma société, je suis passionné par l'actu en général et je participe à la rédaction d'articles pour Repha dans les rubriques Economie et France.