Rapport de panne du 20 Septembre 2024
13h30 : nous détectons la déconnexion de plusieurs liens Fibre sur notre cœur de réseau opérateur, dont le lien principal du Datacenter Lillois. Nous déclenchons une signalisation opérateur.
13h50 : de plus en plus de liens sont impactés sur notre cœur de réseau, les investigations sont en cours auprès de l’opérateur d’infrastructure SFR.
14h25 : Un port down a été détecté sur le switch de cœur de réseau chez SFR, l’intervention technique est en cours, les liens Fibre commencent à remonter suite à cela.
14h30 : L’incident dans le cœur de réseau SFR est terminé. Suite à l’intervention du technicien, une contrainte fibre a été levé. L’ensemble des services d’accès à Internet sont rétablis.
Rapport de panne du 23 Septembre 2024
23h46 : Remontées d’alertes sur certaines machines SI.
00h30 : Le service d’astreinte monte un point de conférence avec les contacts d’escalade interne pour identifier la source du dysfonctionnement.
01h35 : Un impact sur notre plaque VOIP est détecté, une partie des appels ne sont pas correctement acheminés.
02h15 : Le défaut est identifié sur l’infrastructure virtuelle, des mécanismes de sécurité sur l’écriture des machines virtuelles s’activent rendant une partie des machines non exploitable.
03h00 : Suite à l’augmentation des valeurs de blocage, nous avons observé une amélioration temporaire mais les seuils sont de nouveaux atteints rapidement.
04h10 : Nous procédons à un redémarrage progressif de la plaque de virtualisation pour endiguer un éventuel défaut physique des équipements.
04h45 : Le redémarrage progressif de la plaque nous permet d’écarter la partie physique.
05h00 : Nous prenons la décision de couper l’ensemble des machines virtuelles pour générer un redémarrage progressif et identifier les VMs sources du défaut.
07h00 : La source est identifiée sur les machines VoIP en charge des bases de routages.
07h45 : Les équipes VoIP sont mandatées pour identifier la cause de l’augmentation des requêtes sur ces machines. En parallèle nos équipes SI se préparent à redémarrer progressivement les différents services.
08h30 : Le trafic anormal à l’origine du défaut est identifié et isolé.
08h35 : La remontée des machines virtuelles est lancée, une vérification des métriques liés aux seuils de blocages est faite sur chaque machine redémarrée.
09h15 : Nous avons remonté la moitié des machines virtuelles.
09h45 : L’ensemble des machines sont remontées la mise en production est lancée.
10h00 : L’ensemble des services sont de nouveau fonctionnels, l’accès aux systèmes d’informations sont bons, les appels sont à nouveau tous correctement acheminés.