Chers Partenaires,
Nous revenons vers vous pour partager une analyse détaillée de l’incident qui a impacté nos services ce mardi 10/12/2024.
Déroulé de l’incident :
Un collaborateur de notre partenaire transitaire au niveau national, appartenant au service infrastructure, intervenant sur un dysfonctionnement sur le site TH2 à Paris, a pris des libertés avec le processus en vigueur (non-respect du Change Advisory Board – CAB). Cette intervention a consisté à prendre la main sur un équipement cœur de réseau, ce qui a autorisé un apprentissage de routes BGP saturant l’ensemble des routeurs satellites.
Début d’incident : 10/12/2024 14h58
Fin d’incident : 10/11/2024 23h30
Les impacts identifiés ont touché les services suivants :
- Service de transit Internet
- Service de collecte VoIP
- Espace client NYUKOM
- Mobilité avec option d’adresse IP Fixe
Déroulement :
10/12/2024 à 14h58 : Remontées d’alertes anormalement élevées sur tout notre réseau.
15h05 : Une cellule de crise est montée mobilisant l’ensemble des services techniques.
15h15 : Nous réalisons des vérifications sur différentes machines afin de poser un premier diagnostic.
15h30 : Les premières investigations de notre transitaire indiquent que certaines machines en POP et des VISP sont fonctionnelles.
15h40 : À la suite des différents retours des équipes techniques, notre transitaire oriente ses investigations vers son cœur de réseau.
15h50 : Notre transitaire n’observe aucune coupure physique et réseau entre les différents équipements de routage de l’infrastructure.
16h00 : Des alertes d’insuffisance mémoires sont identifiées sur les routeurs satellites.
16h15 : Le nombre de routes BGP qui apparaissent sur ces équipements sont très anormalement élevées. Un défaut de filtrage des routes est identifié en amont et corrigé.
16h30 : Une première tentative de désengorgement d’apprentissage révèle un délai de retour fonctionnel trop long.
16h40 : Un test de shutdown logiciel permet de réduire le délai de rétablissement.
16h50 : Cette dernière solution est ensuite validée, notre transitaire procède au déploiement de la solution.
Cette méthode a été généralisée sur environ 50 routeurs, machine par machine.
17h00 : Le déploiement de la solution sur les premières baies permet de remonter des services.
17h10 : La solution est déployée sur l’ensemble des baies, certains services Data sont remontés en dégradé (ADSL / FTTH Orange, FTTB Altitude Covage Axione)
70 % des services sont de nouveau fonctionnels.
17h30 : Des incohérences dans les clusters VISP virtuels sont détectés, nécessitant une vérification et un rééquilibrage communautaire.
17h35 : Une partie du parc ADSL Orange remonte. Une équipe prend en charge la vérification de l’ensemble des troncs collectes DATA.
Les administrateurs VoIP poursuivent le contrôle et la remise en conformité de la plaque VOIP
Les administrateurs SI prennent en charge le contrôle et la remise en conformité de l’ensemble des plates-formes SI.
18h05 : 90% des collectes DATA sont rétablies.
18H30 : 50% du rééquilibrage communautaire sur le cluster de VISP est réalisé.
19h15 : L’ensemble de la plaque VOIP, le SI et des services adjacents ont été contrôlés, le service est nominal.
21h00 : L’ensemble des collectes DATA sont fonctionnelles, un défaut subsiste sur une porte de collecte Axione.
L’équilibrage communautaire sur le cluster de VISP est terminé. Le service est nominal.
23h30 : Le défaut sur la collecte Axione est corrigé ainsi que différentes anomalies sur certaines VISP.
Enquête et constats :
Une enquête interne a été lancée chez notre transitaire. Les premiers éléments confirment qu’il ne s’agit pas d’un acte de malveillance. Cependant, deux manquements ont été identifiés :
- Non-respect du processus CAB.
- Absence de prévenances AD HOC pour ce type d’opération.
Actions engagées chez notre transitaire :
- Une évaluation de la chaîne managériale est en cours chez notre transitaire.
- Une revue immédiate des processus internes a été lancée, accompagnée d’un renforcement des contrôles d’accès aux machines cœur de réseau.
Actions engagées chez NYUKOM :
- Mise en place d’une redondance de notre service téléphonique de support chez un hébergeur indépendant du réseau de Datacenter de Nyukom.
- Mise en place d’un second numéro pour notre support technique, chez un autre transitaire de VoIP.
Nous tenons à vous présenter nos excuses les plus sincères pour les impacts générés sur vos activités.
Soyez assurés que toutes les mesures nécessaires sont prises pour renforcer notre organisation et prévenir la répétition de ce type d’incident.
Nous restons à votre disposition pour toute question ou clarification.