Bienvenue sur le Blog de RD médias

Vous trouverez ici la liste des interventions, des alertes ainsi que des tutoriaux utiles au quotidien.

  • Coupure réseau mercredi 06 mars vers 22h 19 février 2024

    RD v3 dernière ligne droite !

    Après la migration avec succès de nos VMs sur un Cloud ESX de toute dernière génération, nous finalisons notre upgrade avec le changement de nos FireWalls physiques et Load Balancers sur des produits d’actualité. Cela impliquera une coupure réseau totale d’environ 30 minutes, juste le temps de migrer les règles de sécurité actuelles et réactiver les routes à travers notre BGP multi opérateurs.

    Afin de vous apporter la meilleure sécurité qu’il soit, nous poursuivons notre première idée vieille de 20 ans en conservant un cluster de haute disponibilité en doublant toute la tête de pont : Switches BGP, Anti DDos, FireWalls et Load Balancers. A ce propos une offre PRA pour vos VMs vous sera proposée dans les semaines à venir avec une copie de nos ESX sur le data center Free Pro de Lyon.

    Merci pour votre compréhension et merci aux équipes de Free Pro pour leur implication,
    Hébergement vôtre.

    Continuer la lecture →
  • Migration vers Cloud 3.0 30 octobre 2023

    Ci-dessous la liste des machines qui seront migrées vers notre Cloud 3.0, seule une coupure de 30 à 60 minutes est à prévoir selon la taille des disques durs.

    Lundi 30 octobre 2023 à partir de 12h

    • HERACLES
    • OLIVE
    • ARCTIQUE
    • ARCTIQUE2
    • OXYGENE-OMNI
    • OXYGENE-VOYAGEURS

    Mardi 31 Octobre 2023 à partir de 12h

    • OLYMPE
    • ARTEMIS
    • ATLAS
    • ARES
    • ADPC-WEB01

    Continuer la lecture →
  • MAJ Windows 12 octobre 2023

    3 MAJ sont à réaliser, tous les serveurs infogérés seront traités cette nuit.

    Continuer la lecture →
  • Migration serveur de mails Cassis 17 août 2023

    Vendredi 18/08 à partir de 21h, on migre le serveur de mails Cassis vers notre Cloud de dernière génération. Une coupure de 1 à 2h est à prévoir, merci par avance pour votre compréhension.

    22h00 : VM ré injectée avec succès dans le nouveau Cloud, on lance la synchronisation, le retour à la normale se fera dans quelques dizaines de minutes …

    22h23 : services relancés avec succès, bonne soirée.

    Continuer la lecture →
  • Serveur de Mails Cassis 7 juillet 2023

    Bonjour, on rencontre une attaque sur le serveur de mails depuis 14h05, on y travaille afin de rétablir un service stable …

    15h50 : tous les services sont relancés.

    Explication : on s’est pris des millions d’io qui a saturé le serveur de mails et une partie du cloud, on a isolé le serveur de mails, déplacé les machines impactées, bloqué l’attaque et relancé tous les services.

    Continuer la lecture →
  • Serveur de Mails down et cinq VMs 23 juin 2023

    Bonjour,

    Suite à des modifications importantes dans les règles de backup (préparation à la migration dans le cloud 3.0, et renforcement des règles de sécurité en matière de backup), une partie du Cloud 2.0 est inaccessible depuis 6h ce matin, ça n’impacte que le serveur de mails et quelques machines, on travaille au rétablissement des services dans les meilleurs délais …

    9h00 : tous les services sont de nouveau UP, on va analyser la défaillance et corriger le tir pour les nuits prochaines.

    Continuer la lecture →
  • MAJ WINDOWS 16 juin 2023

    3 MAJ à réaliser avec reboot obligatoire.

    Tous les serveurs infogérés seront traités cette nuit.

    Continuer la lecture →
  • Compte Rendu Incident 13 juin 2023

    # Datacenter FreePro 30/05/2023

    Bonjour,

    Suite à un jour de coupure d’Internet et de tous nos services en date du 30/05/2023, nous nous devions de venir faire un point.

    Côté Data Center

    Un incident de climatisation du site a eu lieu entre le 30/05/2023 à 20h42 et le 31/05/2023 à 11h15
    suite à une perte de pression du réseau d’eau glacée alimentant les unités de climatisation des
    salles informatiques.
    Suite à une succession de trois fuites d’eau sur le réseau secondaire d’eau glacée (boucle
    d’alimentation des unités de climatisation des salles informatiques) et à la perte de pression dans
    la boucle d’eau glacée qui en a résulté, une montée en température importante dans les salles
    informatiques du site a eu lieu.
    La prise en compte des défauts et des alarmes remontées au niveau des logiciels de supervision
    a été défaillante en début d’incident et a occasionné un délai dans la prise en compte de l’incident
    et dans le déclenchement des opérations de remédiation. Ce sujet est au cœur des analyses sous
    le pilotage direct de la Direction Générale de l’entreprise.
    Les équipes d’exploitation ont été contraintes de couper progressivement l’alimentation électrique
    des salles informatiques dans le but de protéger les équipements des clients, conserver l’intégrité
    des infrastructures et éviter un départ de feu éventuel suite à un emballement thermique. Pendant
    cette période nous avons néanmoins maintenu nos infrastructures essentielles et le backbone
    réseau opérationnels.
    Les équipes d’interventions présentes sur site se sont réparties sur les 3 actions correctives
    suivantes :

    • Localisation et isolation des fuites par fermeture des vannes (2 fuites sur les circuits
      d’alimentation des climatisations et 1 sur une des pompes secondaires) ;
    • Remplissage et remise en pression des réseaux d’eau glacée primaire et secondaire ;
    • Evacuation de l’eau présente en faux plancher des salles informatiques (NB : le niveau
      d’eau n’a atteint aucun équipement électrique durant l’incident mais a provoqué une
      augmentation de l’hygrométrie du site sans dépasser les seuils de SLA toutefois).
      Le temps de remplissage et la remise en pression des boucles primaire et secondaire se sont
      avérés très longs pour les raisons suivantes :
    • Le débit du circuit d’alimentation en eau adoucie s’est révélé insuffisant pour remplissage
      d’un telle volumétrie en un temps contraint ;
    • En cours de remplissage, lors de l’atteinte d’un premier seuil de pression, est apparue une
      nouvelle fuite au niveau d’une pompe secondaire (effet sur une bride de serrage d’une
      vanne lors de la perte de pression et du re-remplissage) ;
    • Le temps nécessaire à la mise en œuvre de sources complémentaires d’alimentation d’eau
      pour le remplissage.
      3
      A la fin du remplissage, lorsque la pression a été suffisante au niveau du circuit primaire, un
      redémarrage par palier des installations de climatisation a pu être initié en tenant compte :
    • D’une part d’un démarrage séquentiel des groupes de production de froid et de leurs
      compresseurs
    • D’autre part de l’hygrométrie par rapport à la température dans les salles informatiques
      pour éviter tout point de condensation pouvant endommager les équipements
      informatiques.
      L’ensemble des opérations de restauration du fonctionnement des installations de climatisation a
      pu être terminé à 11h15, le 31 Mai et ont permis aux équipes en charge de la distribution électrique
      de réalimenter progressivement -en toute sécurité- les départs électriques coupés précédemment.
      La remise sous tension des équipements informatiques a été conduite progressivement et en
      coordination avec les clients suivant les contraintes d’exploitation de chacun.
      Coté température, le retour sous les seuils d’alarme est intervenu à la mi-journée.
      L’incident sur le volet climatisation a pu être clôturé à 14h30 le 31 mai.
      Suivant les infrastructures et les clients, les fins d’incident ou d’impact sur les opérations clients
      se sont étalées dans le temps et nos équipes de support restent mobilisées et renforcées sur le
      week-end et les jours à venir en cas de besoin.

    Côté RD medias

    la coupure électrique a provoqué la casse de :

    • nos switches de bordure (qui gèrent le BGP)
    • la destruction ou la perturbation de 5 autres switches fibre

    Après le remplacement de tous les switches réseau, nous avons pu commencer à vérifier l’état matériel de notre réseau, notre cloud et les serveurs physiques.

    A 22h le 31 mai, nous avons attaqué le remplacement des switches BGP (tête de pont réseau), à 3h45 le 01 juin tout le réseau était de nouveau accessible.

    Entre le 31 mai et le 1er juin, nous avons relancé tous les serveurs virtuels sans perte de données aucune, la réplication ayant fonctionné pour certaines VM qui avaient subi une altération lors de l’arrêt brusque de courant (principalement les serveurs Linux).

    Certaines parties du réseau comportaient des dysfonctionnements, nous avons pu isoler chaque route défectueuse et remplacer ou corriger les switches qui posaient souci. la sécurité employée à travers nos fireWalls physiques et les vlan clients imposent des règles très strictes à tout point de vue du réseau et demande beaucoup de précision lors de toute intervention réseau.

    Malgré cette panne fort gênante pour l’activité de nos clients il faut retenir quelques point positifs :

    • aucune perte de données
    • implication totale et sans limite des équipes techniques de RD medias et Free Pro
    • l’optimisation de quelques points dans notre réseau BGP <> FireWalls

    D’ici quelques semaines on vous présentera certains points que nous sommes en train d’améliorer …

    Bien sincèrement,
    l’équipe de RD medias

    Continuer la lecture →
  • MAJ Windows 12 octobre 2022

    3 MAJ à réaliser avec reboot obligatoire.

    Tous les serveurs infogérés seront traités cette nuit.

    Continuer la lecture →
  • MAJ Windows 17 juin 2022

    3 MAJ dont une urgente à réaliser avec reboot obligatoire.

    Tous les serveurs infogérés ont été traités cette nuit.

    Continuer la lecture →
  • MAJ Windows – URGENT ! 19 avril 2022

    Alerte Cyber : Faille de sécurité Microsoft Windows et Windows Server

    https://www.cybermalveillance.gouv.fr/tous-nos-contenus/actualites/alerte-cyber-faille-de-securite-microsoft-windows-et-windows-server

    Tous les serveurs infogérés ont été mis à jour.

    Continuer la lecture →
  • MAJ Windows 10 mars 2022

    2 MAJ avec reboot obligatoire.

    Les serveurs infogérés sont traités cette nuit.

    Continuer la lecture →
  • MAJ Windows 17 décembre 2021

    3 MAJ avec reboot obligatoire.

    Les serveurs infogérés sont traités cette nuit.

    Continuer la lecture →
  • MAJ Windows 13 octobre 2021

    3 MAJ avec reboot obligatoire.

    Les serveurs infogérés sont traités cette nuit.

    Continuer la lecture →
  • Expiration certificat root Let’s Encrypt’s 1 octobre 2021

    De nombreux supports arrivent nous indiquant que le HTTPS ne fonctionne pas et qu’il nous faut mettre à jour le certificat. Cependant, le problème est bien plus complexe et ne dépend pas de notre volonté.

    En effet, la vérification d’un certificat est un processus où l’ont remonte une chaine de confiance. Nous livrons un certificat lui même pointant vers un autre certificat d’une plus haute autorité et cela jusqu’à une autorité que le client (Edge, Mozilla, Firefox, Safari, Openssl, etc) saura reconnaitre comme de confiance.

    Il faut noter que le client, s’il n’est pas mis à jour ne sera pas à jour des certificats de confiance et ne pourra donc pas identifier les certificats plus « modernes ».

    Or, les certificats let’s encrypt pointent vers plusieurs certificats root dont l’un d’eux est obsolète à la date du 30 septembre 2021. Voici une explication de letsencrypt.org eux même :

    https://letsencrypt.org/docs/dst-root-ca-x3-expiration-september-2021/

    letsencrypt.org nous informe qu’il faut mettre à jour les clients vers une version supportée où alors une alerte de sécurité sera émise par le client. Cela n’est pas un problème pour l’absolue majorité des clients qui tiennent leurs machines et systèmes à jour mais le devient si on utilise de vieux appareils, voici la liste de compatibilité :

    https://letsencrypt.org/docs/certificate-compatibility/

    Nous invitons tous nos partenaires à mettre à jour leurs systèmes, cela est d’autant plus important qu’ils s’exposent à des risque de sécurité important s’ils utilisent des outils et navigateurs obsolètes !


    Continuer la lecture →