Compte rendu de situation à 20h30
A 11h30, tous les services sont en cours de redémarrage.
L'ensemble des problèmes intermittent depuis 4 jours, sont tous liés à la perte progressive d'un équipement majeur de notre cœur de réseau : un switch 10Gbe.
De fait cet équipement à cesser de fonctionner correctement, occasionnant des pertes d’accès totale ou temporaire des serveurs virtuel à leur stockage disque.
Cet effet étant dû à des flux réseaux anarchique produit par ce switch rendant très lent notre cœur de réseau, ceci a rendu complexe sa détection et fortement ralenti la mise en place d’une solution permettant aucune perte de vos données.
Le temps d’identifier cette panne, et de couper les services afin de changer ce matériel névralgique.
Tout cela à générer la plus grosse panne que DINAO ait connu depuis sa création en termes de durée et de nombre de services impactés et nous tenons profondément à nous excuser pour la situation complexe que cela n’a pas manqué d’occasionnée pour vous dans l’usage des services que vous avez souscrit.
Mais en cas de sinistre, nous privilégions toujours le zéro perte de données, à un rétablissement rapide sur une sauvegarde avec perte de données. C'est un choix discutable j'en suis sur, mais ce fut notre choix de jour.
Nous améliorons depuis des années, la qualité de notre infrastructure pour limiter au maximum ce genre de crise.
Fort de cette mauvaise expérience, nous réagissons au plus vite afin de renforcer la résilience générale de l’infrastructure.
Avec cette première contre mesure ayant pour but une amélioration de la qualité de service :
- Mise en place en cours d’un serveur DNS externe à l’infrastructure DINAO.
- Installation finalisée ce jour, en cours de recettage.
- Etape suivante ajouter le nouveau serveur DNS à l’ensemble des domaines apportant ainsi une résolution DNS externe à l’infrastructure DINAO.
D’autre sont en cours d’étude parmi lesquelles :
- Externalisation du site DINAO, en dehors de l’infrastructure DINAO afin de pouvoir communiquer vers l’extérieur en cas de coupure globale réseau.
- Amélioration du standard téléphonique afin de pouvoir diffuser en cas de besoin un message d’information afin de vous informer que le problème est en cours de traitement, et nous permettre de nous concentrer sur sa résolution au plus vite.
Nous restons à votre écoute sur ce que vous avez le plus mal vécu dans cette situation. Toutes vos retours et remarques constructives seront étudiées afin de nous permettre de vous satisfaire au mieux.
Je tiens également à en profiter pour remercier les équipes d'ASP SERVEUR pour leur aide dans la gestion de cette crise.
M. Fabien TACHE
Gérant.
DINAO
PROGRESSION ACTUELLE :
12:00 - 70% de l'analyse du serveur
14:31 - 85% de l'analyse du serveur
15:10 - 95% de l'analyse du serveur
15:45 - redemarrage des services, risque de ralentissement et de blocage encore durant la phase de synchronisation entre le serveur primaire et secondaire.
Suite au baisse de performance rencontré ces 3 derniers jours sur le serveur de mail primaire, une maintenance a été programmé ce samedi matin.
Pour rappel durant cette période vous ne pourrez plus envoyez d'email, et tout les emails que l'on tentera de vous envoyez seront stockés sur le serveur d'email secondaire.
Il vous seront automatiquement redistribué à la fin de la maintenance du serveur primaire
================================================================
ENGLISH VERSION
================================================================
CURRENT PROGRESS:
12:00 - 70% of the server scan
14:31 - 85% of the server scan
15:10 - 95% of the server scan
15:45 - restart of services, risk of slowing down and blocking again during the synchronization phase between the primary and secondary server.
Following the decline in performance over the last 3 days on the primary mail server, maintenance has been scheduled this Saturday morning.
We do our best to limit the cutoff period.
As a reminder during this period you will not be able to send any more emails, and all the emails that we will try to send you will be stored on the secondary email server.
It will be automatically redistributed at the end of primary server maintenance
================================================== ==============
VERSIÓN ESPAÑOLA
================================================== ==============
PROGRESO ACTUAL:
12:00 - 70% de la exploración del servidor
14:31 - 85% de la exploración del servidor
15:10 - 95% de la exploración del servidor
15:45: reinicio de los servicios, riesgo de ralentización y bloqueo nuevamente durante la fase de sincronización entre el servidor primario y el secundario.
Tras la disminución en el rendimiento durante los últimos 3 días en el servidor de correo primario, el mantenimiento se ha programado este sábado por la mañana.
Hacemos nuestro mejor esfuerzo para limitar el período de corte.
Como recordatorio durante este período, no podrá enviar más correos electrónicos, y todos los correos electrónicos que intentaremos enviarle se almacenarán en el servidor de correo electrónico secundario.
Se redistribuirá automáticamente al final del mantenimiento del servidor primario
SUITE ..
Le serveur webdev 24 a replanté cette nuit. Nous recherchons la bonne mesure corrective
- un audit est en cours avec PC-SOFT : ok
- le problème a été ciblé suite à l'audit de PC SOFT, la derniere sauvegarde est en cours de restauration, dés que c'est fini le patch sera appliqué et les services seront de nouveaux opérationnels
le bug provenait d'un dépassament d'un crash mémoire du serveur d'application, suite à un cle de registre malformée, suite à des processus de MAJ d'un site webdev
- le problème est résolu le serveur est de nouveau en production
The webdev 24 server replenished that night. We are looking for the right corrective action
- an audit is in progress with PC-SOFT : ok
- The problem was targeted following the audit of PC SOFT, the last backup is being restored, as soon as it is finished the patch will be applied and the services will be new operational.
The bug came from an overflow of an application server memory crash, following a malformed registry key, as a result of update processes of a webdev site
- the problem is solved the server is back in production
AVANCENMENT :
- sauvegarde complète : fini
- restauration du disque c: : fini
- le serveur en cours de démarrage
- validation du fonctionnement des services : ok
donc au final la restauration du disque système c: à résolu le problème, donc les données doivent être ok, merci de vérifier que tous vos services sont rétablis et selon d'ouvrir un ticket?
Nous sommes désolé de cette coupure de service fort longue mais nous avons fait le maximum pour éviter de perdre des données
AVANCENMENT:
- full backup: finished
- disk restoration c: finished
- the server being started
- validation of the functioning of the services : ok
so in the end the restoration of the system disk c: solved the problem, so the data must be ok, thank you to check that all your services are restored and according to open a ticket?
We are sorry for this very long service break but we have done our utmost to avoid losing data
Le serveur webdev 24, subi actuellement une panne critique, rendant impossible le démarrage du serveur d’application malgré nos efforts de réparation.
Donc faute de trouver de raison explicite permettant une restauration du service dans un temps raisonnable (nous avons déjà plus de 4h de coupure), nous allons etre obligé d'effectuer une restauration du serveur en date de cette nuit 21h00.
Une dernière sauvegarde du serveur en l'état est en cours afin de conserver les données au plus tard.
Dès que la sauvegarde est finie une restauration sera lancée.
Dans un premier temps uniquement du disque système.
Si cela ne suffit pas alors, l'intégralité du serveur sera restaurée avec du coup une régression sur l'état du FTP et de données HFSQL au 18/09/2019 vers 21h00.
Nous vous prions pour la gêne occasionnée.
Un ticket d'incident réseau à été ouvert afin de vous permettre de suivre la progression de la résolution
Depuis votre espace client : menu support / Etat du réseau
====================================================
The webdev 24 server is currently experiencing a critical crash, making it impossible to start the application server despite our repair efforts.
So for lack of explicit reason allowing a restoration of the service in a reasonable time (we already have more than 4h of cut), we will be obliged to carry out a restoration of the server as of this night 21:00.
A last backup of the server as is is in progress to keep the data at the latest.
As soon as the backup is finished a restore will be launched.
At first only the system disk.
If this is not enough then, the entire server will be restored with a sudden regression on the status of FTP and HFSQL data to 18/09/2019 around 21:00.
We beg you for the inconvenience.
18/09/2019 23:05
Nous subissons un fort ralentissement de service sur le serveur de mail primaire
une intervention est en cours, merci de votre patience.
Tous vos emails entrants sont stockés sur le serveur secondaire durant le temps de la coupure, vous ne perdrez donc aucun des emails que l’on vous a envoyez.
19/09/2019 11:00
Tous les services sont redémarrés, une file d'attente des emails reçu sur le serveur secondaire et en cours de traitement et vont vous être distribué avec un peu de retard.
Il est possible que des emails soit bloqué dans la boite d’envoi de votre Outlook, nous vous conseillons de redémarrer Outlook si le problème perdure.
20/09/2019 10:00
Nous subissons encore un fort ralentissement de service sur le serveur de mail primaire, un audit est en cours
le problème est résolu fin de l'incident : 10h20
Cher client,
Dans le cadre d'une démarche de mise aux normes TIER IV dans le Datacenter de La Ciotat.
Des travaux exceptionnels sont programmés le 14/11/2016 entre 20h00 et minuit
Le TIER IV étant le plus haut niveau de disponibilité pour un Datacenter avec une disponibilité supérieure à 99.998%.
Dans ce contexte nous sommes amenés à effectuer des travaux sur les chaines énergie le 14/11/2016.
Contractuellement il s'agit d'une plage de maintenance programmée.
La coupure sera uniquement réseau sur les équipements réseaux non redondés électriquement.
Inutile d'éteindre vos serveurs.
La maintenance pouvant entrainer une indisponibilité des services qui débutera à 20H00 et devrait être terminée vers 24H00.
Notez que la plage pourra être étendue à la nuit complète le jour-même en cas de difficultés imprévues.
Nous mettons tout en œuvre pour que cela soit transparent pour vous.
Chers clients,
Dans les jours qui suivent des travaux d'entretien du réseau électrique dans l'ensemble du Datacenter de La Ciotat, vont impliquer quelques coupures de redondances électriques, nous obligeant dans certains cas à couper un routeur et le redémarrer, ces coupures n'excéderont jamais plus de quelques minutes (le temps de redémarrage d'un Routeur).
Cela peut entrainer dans certains cas des coupures de services, nous feront le maximum pour éviter que cela ne se produise pas.
Chers clients,
Certains d'entre vous ont subi des problèmes de fonctionnement de l'outil de gestion de vos zones DNS, la dernière mise à jour logicielle à résolu l'ensemble des problèmes résiduels.
Bonjour,
Nous subissons une coupure du serveur de mail primaire suite à un problème sur l'hyperviseur.
Le problème est en cours de résolution, la coupure durera à minima jusqu'a 15h00
Une coupure nocture de service se produira vers 00h30 pour une durée de 2h maximum.
Pour rappel dans le cas ou le serveur primaire est hors service le secondaire continu de stocker vos emails entrants, ils vous seront distribués dés le redemarrage du serveur primaire
Veuillez nous excusez pour la gêne occasionnée.
État des serveurs
Le tableau ci-dessous affiche l'état de nos serveurs. Vous pouvez consulter cette page pour vérifier l'état des services disponibles sur le serveur.
Serveur | HTTP | FTP | POP3 | Info PHP | Charge du serveur | Disponibilité |
---|---|---|---|---|---|---|
29|WEBDEV 29A |
|
|
|
Info PHP |
|
|