Compte Rendu Incident

# Datacenter FreePro 30/05/2023

Bonjour,

Suite à un jour de coupure d’Internet et de tous nos services en date du 30/05/2023, nous nous devions de venir faire un point.

Côté Data Center

Un incident de climatisation du site a eu lieu entre le 30/05/2023 à 20h42 et le 31/05/2023 à 11h15
suite à une perte de pression du réseau d’eau glacée alimentant les unités de climatisation des
salles informatiques.
Suite à une succession de trois fuites d’eau sur le réseau secondaire d’eau glacée (boucle
d’alimentation des unités de climatisation des salles informatiques) et à la perte de pression dans
la boucle d’eau glacée qui en a résulté, une montée en température importante dans les salles
informatiques du site a eu lieu.
La prise en compte des défauts et des alarmes remontées au niveau des logiciels de supervision
a été défaillante en début d’incident et a occasionné un délai dans la prise en compte de l’incident
et dans le déclenchement des opérations de remédiation. Ce sujet est au cœur des analyses sous
le pilotage direct de la Direction Générale de l’entreprise.
Les équipes d’exploitation ont été contraintes de couper progressivement l’alimentation électrique
des salles informatiques dans le but de protéger les équipements des clients, conserver l’intégrité
des infrastructures et éviter un départ de feu éventuel suite à un emballement thermique. Pendant
cette période nous avons néanmoins maintenu nos infrastructures essentielles et le backbone
réseau opérationnels.
Les équipes d’interventions présentes sur site se sont réparties sur les 3 actions correctives
suivantes :

  • Localisation et isolation des fuites par fermeture des vannes (2 fuites sur les circuits
    d’alimentation des climatisations et 1 sur une des pompes secondaires) ;
  • Remplissage et remise en pression des réseaux d’eau glacée primaire et secondaire ;
  • Evacuation de l’eau présente en faux plancher des salles informatiques (NB : le niveau
    d’eau n’a atteint aucun équipement électrique durant l’incident mais a provoqué une
    augmentation de l’hygrométrie du site sans dépasser les seuils de SLA toutefois).
    Le temps de remplissage et la remise en pression des boucles primaire et secondaire se sont
    avérés très longs pour les raisons suivantes :
  • Le débit du circuit d’alimentation en eau adoucie s’est révélé insuffisant pour remplissage
    d’un telle volumétrie en un temps contraint ;
  • En cours de remplissage, lors de l’atteinte d’un premier seuil de pression, est apparue une
    nouvelle fuite au niveau d’une pompe secondaire (effet sur une bride de serrage d’une
    vanne lors de la perte de pression et du re-remplissage) ;
  • Le temps nécessaire à la mise en œuvre de sources complémentaires d’alimentation d’eau
    pour le remplissage.
    3
    A la fin du remplissage, lorsque la pression a été suffisante au niveau du circuit primaire, un
    redémarrage par palier des installations de climatisation a pu être initié en tenant compte :
  • D’une part d’un démarrage séquentiel des groupes de production de froid et de leurs
    compresseurs
  • D’autre part de l’hygrométrie par rapport à la température dans les salles informatiques
    pour éviter tout point de condensation pouvant endommager les équipements
    informatiques.
    L’ensemble des opérations de restauration du fonctionnement des installations de climatisation a
    pu être terminé à 11h15, le 31 Mai et ont permis aux équipes en charge de la distribution électrique
    de réalimenter progressivement -en toute sécurité- les départs électriques coupés précédemment.
    La remise sous tension des équipements informatiques a été conduite progressivement et en
    coordination avec les clients suivant les contraintes d’exploitation de chacun.
    Coté température, le retour sous les seuils d’alarme est intervenu à la mi-journée.
    L’incident sur le volet climatisation a pu être clôturé à 14h30 le 31 mai.
    Suivant les infrastructures et les clients, les fins d’incident ou d’impact sur les opérations clients
    se sont étalées dans le temps et nos équipes de support restent mobilisées et renforcées sur le
    week-end et les jours à venir en cas de besoin.

Côté RD medias

la coupure électrique a provoqué la casse de :

  • nos switches de bordure (qui gèrent le BGP)
  • la destruction ou la perturbation de 5 autres switches fibre

Après le remplacement de tous les switches réseau, nous avons pu commencer à vérifier l’état matériel de notre réseau, notre cloud et les serveurs physiques.

A 22h le 31 mai, nous avons attaqué le remplacement des switches BGP (tête de pont réseau), à 3h45 le 01 juin tout le réseau était de nouveau accessible.

Entre le 31 mai et le 1er juin, nous avons relancé tous les serveurs virtuels sans perte de données aucune, la réplication ayant fonctionné pour certaines VM qui avaient subi une altération lors de l’arrêt brusque de courant (principalement les serveurs Linux).

Certaines parties du réseau comportaient des dysfonctionnements, nous avons pu isoler chaque route défectueuse et remplacer ou corriger les switches qui posaient souci. la sécurité employée à travers nos fireWalls physiques et les vlan clients imposent des règles très strictes à tout point de vue du réseau et demande beaucoup de précision lors de toute intervention réseau.

Malgré cette panne fort gênante pour l’activité de nos clients il faut retenir quelques point positifs :

  • aucune perte de données
  • implication totale et sans limite des équipes techniques de RD medias et Free Pro
  • l’optimisation de quelques points dans notre réseau BGP <> FireWalls

D’ici quelques semaines on vous présentera certains points que nous sommes en train d’améliorer …

Bien sincèrement,
l’équipe de RD medias

Agrégation AS 35334 non joignable

Bonjour, cette nuit entre 1h45 et 3h25 nos switchs de bordure Cisco ont rencontré un souci de swap (bascule permanente de l’un vers l’autre), ce qui a empêché d’agréger correctement les routes ip dans notre réseau. Après investigation, il a fallu une intervention manuelle pour rebooter nos switches de Bordure et rendre de nouveau nos agrégations disponibles.

Merci à nos équipes d’ingénierie Jaguar Network pour avoir identifié et solutionné le dysfonctionnement dans les plus brefs délais. Les logs de crash partent en analyse ce matin même afin de corriger au besoin le tir.

Désolé pour cette perte de connectivité et nous restons bien entendu à votre entière disposition pour toute question.

Bien sincèrement,
L’équipe technique de RD médias.

Attaque en règle de Amazone

Depuis des heures nous prenons des attaques sur notre blog, aussi nous avons décidé de bloquer toutes les plages ip en provenance de Amazone, répondant en sous domaine au nom de compute.amazonaws.com

Plages ip bloquées à ce jour :

3.0.0.0-3.127.255.255
13.52.0.0-13.59.255.255
18.128.0.0 – 18.255.255.255
50.112.0.0-50.112.255.255
52.0.0.0-52.31.255.255

Vu le nombre d’attaques et le nombre d’ip utilisées à partir de machines virtuelles (pas moins de 94 ip différentes), cela nous conforte dans la sécurité et la surveillance que nous apportons au quotidien sur vos machines dédiées et virtuelles …

Donc si vous rencontrez ce même genre d’attaque une règle anti compute.amazonaws.com est désormais prête à l’emploi sur nos firewalls physiques.

Hébergement vôtre.

Incident réseau

Des pertes de liaison ont eu lieu pour certains de nos clients suite à une attaque ddos de grande envergure.

Lieux de l’incident:

·  Jaguar Datacenter MRS01 MARSEILLE 16 (hr02.mar02)

·  Jaguar Datacenter MRS01 MARSEILLE 16 (vhs11.mar)

Raisons :

Nos experts ont pu identifier la source des attaques et ainsi isoler les flux illégitimes. L’accès à l’ensemble de vos services est désormais rétabli. Nous avons mis en place une équipe d’experts dédiés à la surveillance afin de nous assurer de la stabilité de la situation. Cette équipe restera en place jusqu’à ce que nous considérions tout risque écarté.

Malgré toutes nos précautions, nous avons subi une nouvelle attaque de moindre envergure entre 18h27 et 18h57. La mise en place de l’équipe sécurité dédiée à cet événement a permis de réagir immédiatement en appliquant des mesures de protection supplémentaires. En l’état nous avons observé 2 attaques ce jour. La première entre 15H50 et 16H38 et la seconde entre 18h27 et 18h57. Notre équipe d’experts poursuit bien entendu la surveillance renforcée afin de nous assurer de la stabilité de la situation.

01/11/2019 0h10 :

A l’instant, la vigilance renforcée de notre équipe d’experts nous a permis d’éviter tout nouvel impact. Pour autant, nous avons pris la décision de MAINTENIR notre dispositif d’alerte. Par conséquent, notre équipe restera mobilisée a minima tout le week-end afin de pallier à toute éventuelle nouvelle tentative d’attaque.

02/11/2019 14h00 :

La surveillance renforcée depuis jeudi 19h a permis de nous assurer qu’aucune nouvelle attaque n’a eu lieu. Cependant soyez assurer que nous continuons de surveiller de manière active notre réseau afin de pouvoir réagir le plus rapidement possible si nécessaire.

Migration DC et PRTG

Bonjour,

Nous avons migré nos deux contrôleurs de domaines internes avec succès. Reste à régler la remise en route d’un de nos serveurs de monitoring PRTG qui impacte les mesures d’une vingtaine de machines. Le service devrait être relancé cette nuit ou demain matin au plus.

Fin d’intégration des VM dans le cloud 2.0

Bonsoir,

A compter de cette nuit, nous avons attaqué la migration des dernières VM dans notre nouveau cloud 2.0. Une migration se fait à chaud et prend de 10 minutes à 1h30 suivant l’espace occupé.

Ce que vous y gagnez :

  • nouveau système de backup avec un plan de continuité dans notre second data
  • des règles de sécurité accrues avec l’ips activé en amont de vos machines
  • des reboots ultra rapides (disques SSD)
  • des capacités extensibles (mémoire, cpu, …)

RD medias le retour de le vengeance …

Que des grandes nouvelles pour ce mois de Juillet avec pas moins de 100% de disponibilité réseau depuis 5 mois.

Cerise sur le gâteau, nous sommes passés à 2 To de mémoire pour notre cloud 2.0, et pour fêter ça nous allons lancer nos nouvelles offres vers septembre-octobre ! Des offres qui reprendront en partie le système de nos concurrents (avec le service en plus) :

  1. offre RD, rien ne change, tout est compris et on accompagne toujours 24h/24 quels que soient vos besoins
  2. offre free, vous ne payez que le matériel et pas les services (sauf qu’en réalité tout y est), mais chaque demande sera facturable …

Enfin, dernière dépêche, 2016 serveur est déjà en labo et un cloud (dédié et client) verra le jour d’ici quelques semaines avec ses dernières technologies embarquées.

Ha j’oubliais, dernière info et non des moindres, notre nouveau logiciel de comptabilité qui sortira le 1er octobre (date ou RD médias passera en SAS) permettra de facturer vos consommations « on demand » …

 

Hébergement vôtre.

Juin 2016 – Gmail change sa politique DMARC

Qu’est ce que le DMARC ?

Cette technique permet notamment d’améliorer la sécurité des échanges en standardisant la manière dont un MTA destinataire doit gérer un message dont les vérifications d’usage (DKIM et/ou SPF) ont échoué.
Cette technique offre de multiples avantages. Grâce à elle, on peut notamment limiter le risque de phishing car un spammeur aura des difficultés à émettre des emails en usurpant un domaine légitime.

C’est une technologie activée sur nos serveurs de mails depuis fort longtemps.

Oui mais qu’est ce que cela impacte ?

Gmail intègre le DMARC depuis longtemps mais le géant américain avait opté pour une politique tolérante et il autorisait ainsi ses utilisateurs à envoyer des mails en passant par les SMTP de leur fournisseur d’accès. Mais voilà, face à la recrudescence du phishing, il a décidé de durcir le ton et il va donc modifier sa politique à partir du mois de juin.

A cette date, les messages émis par une adresse électronique de type « @gmail.com » devront impérativement passer par les serveurs SMTP de Gmail !

Demain ?

Si vous souhaitez continuer à utiliser GMAIL il vous faudra déclarer son SMTP, en SSL avec authentification.

Le plus simple désormais est d’utiliser un email sur un domaine déclaré chez nous. Authentification non nécessaire via notre serveur de relais, SPF intégré et IP white listé au niveau mondial.


Article tiré de :
http://www.fredzone.org/gmail-va-securiser-ses-envois-449

Objectif qualité réseau rempli

Après :

  • des affinements sur la mitigation des ARBORS (contre les attaques ddos),
  • l’activation de l’IPS sur nos firewalls physiques pour les serveurs hébergés dans notre cloud 2.0
  • l’upgrade de nos switchs de bordure
  • le passage de notre réseau en 10Gbps

depuis deux mois, nous avons repris une disponibilité réseau de 100% !

 

iplabel-avril

Pour information, concernant l’IPS, c’est plusieurs milliers d’attaques bloquées par jour rien que pour les injections SQL vers les plate formes open source (joomla, prestashop, …).

Exemple des attaques bloquées sur une journée :

Attaque Nom Nb
15621 web_misc: HTTP.URI.SQL.Injection, 5479
38257 applications3: WordPress.xmlrpc.Pingback.DoS, 3389
100663398 anomaly: portscan 1237
39294 applications3: Bash.Function.Definitions.Remote.Code.Execution, 566
41548 web_app3: Joomla.list.select.Parameter.SQL.Injection, 112
41851 applications: Joomla.Core.Session.Remote.Code.Execute, 66
16777316 anomaly: icmp_flood 14
39136 web_app3: WordPress.Slider.Revolution.File.Inclusion, 9
38315 applications: OpenSSL.Heartbleed.Attack, OpenSSL Heartbleed 3
34490 web_app: Joomla.JCE.Extension.Remote.File.Upload, 2

 

Hébergement vôtre.