Accéder au contenu.
Menu Sympa

linux-31 - même les précautions peuvent entrainer des soucis...

Objet : Discussions sur le logiciel libre

Archives de la liste

même les précautions peuvent entrainer des soucis...


Chronologique Discussions  
  • From: "jdd AT dodin.org" <jdd AT dodin.org>
  • To: Linux 31 <linux-31 AT culte.org>
  • Subject: même les précautions peuvent entrainer des soucis...
  • Date: Thu, 14 Dec 2023 19:40:04 +0100

Panne générale sur o2switch ce matin: plus de site web, plus de courrier. Heureusement leur site principal était toujours joignable, j'ai ouvert un ticket et je n'ai sûrement pas été le seul...

c'est revenu vers 15h (pour moi), et peut-être pas complètement, ce message n'est pas passé la première fois :-(. La réponse au ticket:

"Bonjour,

Pour suite à l'incident, ayant commencé à s'être déclaré ce matin vers 10h.
Sur l'intégralité de nos serveurs nous utilisons Kernelcare : https://cloudlinux.com/kernelcare-hosting/

Il s'agit d'un système de patchs pour kernel, afin d'éviter de devoir redémarrer un serveur à chaque mise à jour du noyau Linux.
Kernelcare est utilisé avec succès par de nombreux hébergeurs, et chez nous depuis +8ans.

Kernelcare réalise applique automatiquement ses patchs, qui sont censés êtres testés et ne poser aucun problème.
De même que nous testons aussi, au préalable, sur un lot de serveurs (où il n'y a pas eu d'incident..)
Ainsi, il n'y a pas de périodicité spécifique ni d'heure d'application : dès qu'un patch est disponible, il est appliqué.

Ce matin vers 10h tous les serveurs ont réceptionné un patch appliqué dans la foulée.
Problème : sur ~ 50 machines physiques, le patch a provoqué une incompatibilité entre le matériel (carte réseau indépendante) et le kernel. Ayant pour résultat de bloquer complètement le réseau du serveur physique concerné.

Naturellement, pour annuler le patch, nous devons avoir accès au réseau.. Réseau qui ne fonctionne plus.
Nous devons donc nous connecter physiquement sur tous les serveurs, voir ce qu'il est possible de faire,
et le cas échéant remplacer physiquement le carte réseau provoquant l'incompatibilité sur le serveur concerné.

Ces opérations sont relativement complexes, doivent êtres réalisées serveur par serveur, et nous faisons au plus vite.
Nous sommes désolé pour le manque d'information le temps d'avoir trouvé l'origine de l'incident.

Les serveurs concernés vont revenir progressivement en ligne sur le réseau.

Cordialement
Service Technique"

pour info
jdd

--
https://artdagio.fr


  • même les précautions peuvent entrainer des soucis..., jdd AT dodin.org, 14/12/2023

Archives gérées par MHonArc 2.6.19+.

Haut de le page