Rapport sur les pannes réseaux du 20/09 et téléphoniques du 23/09

Rapport de panne du 20 Septembre 2024

13h30 : nous détectons la déconnexion de plusieurs liens Fibre sur notre cœur de réseau opérateur, dont le lien principal du Datacenter Lillois. Nous déclenchons une signalisation opérateur.

13h50 : de plus en plus de liens sont impactés sur notre cœur de réseau, les investigations sont en cours auprès de l’opérateur d’infrastructure SFR.

14h25 : Un port down a été détecté sur le switch de cœur de réseau chez SFR, l’intervention technique est en cours, les liens Fibre commencent à remonter suite à cela.

14h30 : L’incident dans le cœur de réseau SFR est terminé. Suite à l’intervention du technicien, une contrainte fibre a été levé. L’ensemble des services d’accès à Internet sont rétablis.

Rapport de panne du 23 Septembre 2024

23h46 : Remontées d’alertes sur certaines machines SI.

00h30 : Le service d’astreinte monte un point de conférence avec les contacts d’escalade interne pour identifier la source du dysfonctionnement.

01h35 : Un impact sur notre plaque VOIP est détecté, une partie des appels ne sont pas correctement acheminés.

02h15 : Le défaut est identifié sur l’infrastructure virtuelle, des mécanismes de sécurité sur l’écriture des machines virtuelles s’activent rendant une partie des machines non exploitable.

03h00 : Suite à l’augmentation des valeurs de blocage, nous avons observé une amélioration temporaire mais les seuils sont de nouveaux atteints rapidement.

04h10 : Nous procédons à un redémarrage progressif de la plaque de virtualisation pour endiguer un éventuel défaut physique des équipements.

04h45 : Le redémarrage progressif de la plaque nous permet d’écarter la partie physique.

05h00 : Nous prenons la décision de couper l’ensemble des machines virtuelles pour générer un redémarrage progressif et identifier les VMs sources du défaut.

07h00 : La source est identifiée sur les machines VoIP en charge des bases de routages.

07h45 : Les équipes VoIP sont mandatées pour identifier la cause de l’augmentation des requêtes sur ces machines. En parallèle nos équipes SI se préparent à redémarrer progressivement les différents services.

08h30 : Le trafic anormal à l’origine du défaut est identifié et isolé.

08h35 : La remontée des machines virtuelles est lancée, une vérification des métriques liés aux seuils de blocages est faite sur chaque machine redémarrée.

09h15 : Nous avons remonté la moitié des machines virtuelles.

09h45 : L’ensemble des machines sont remontées la mise en production est lancée.

10h00 : L’ensemble des services sont de nouveau fonctionnels, l’accès aux systèmes d’informations sont bons, les appels sont à nouveau tous correctement acheminés.

Plus d'actualités

Rechercher

Nous utilisons des cookies pour améliorer votre expérience de visite, améliorer nos offres et services et mesurer notre audience. Vous pouvez consulter les conditions d’utilisation de vos information ici.