Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
Mante allô ?
20 janvier 2007

Panne de Blog

Voilà l'explication technique de la panne de vendredi

Papy bloggueur

Bonsoir à tous,

Nous venons de vivre une des plus longues pannes de CanalBlog depuis novembre 2003.
Voici un résumé de ce qui s'est passé et ce que nous comptons faire pour que ceci ne se reproduise pas :

- 11h45 Nous sommes alertés d'un problème sur l'ensemble du réseau CanalBlog. A cette heure-ci, nous ne connaissons pas encore la cause de l'incident.

- 11h50 La panne est située sur un point central de notre infrastructure, la partie base de données, c'est à dire l'ensemble des textes et des données des utilisateurs de CanalBlog. Il s'agit apparemment d'un problème matériel. Nous envoyons immédiatemment un ingénieur sur place.

- 12h35 Sur place, nous constatons qu'un serveur est hors service, son alimentation électrique a laché soudainement, la redondance avec l'autre alimentation n'a pas fonctionné au moment du crash.

- 12h50 Ce serveur est à nouveau opérationnel, il s'agit maintenant de s'assurer de l'intégrité de toutes les données sur les disques durs, nous lançons les tests, cela va durer un petit moment car il y a de grosses quantités de données, nous prévoyons un rétablissement du service pour 14h30.

- 14h30 La vérification est terminée à 98%. On est prêt à relancer les services.

- 15h00 Rien à faire, la vérification bloque à 98%, et aucune erreur déclarée !

- 15h30 Toujours bloqué. On découvre qu'il y a certainement un problème avec un des disques durs de ce serveur (suite à la coupure brutale du serveur)

- 15h45 On lance une sauvegarde complète à partir des disques sains et opérationnels par précaution.

- 16h45 Remplacement du disque defectueux.

- 17h00 On va devoir resynchroniser les volumes de disques et lancer des vérifications complètes par sécurité, ca va prendre au moins 2 heures...

- 19h30 On vérifie une dernière fois l'intégrité des données des blogs et des utilisateurs avant de relancer le service.

- 20h20 Enfin ! Tout les tests sont positifs, on peut réouvrir les services, et aller prendre un sandwich ;-)


Voilà donc ce qui s'est passé aujourd'hui, un problème électrique survenu sur un serveur central a provoqué des réactions en chaine, et nous avons mis beaucoup plus de temps que prévu pour tout rétablir, sans aucune détérioration ou perte de données pour nos utilisateurs, ce qui est quand même le principal !

Pour terminer, nous nous excusons bien sûr pour la gêne occasionnée durant cette journée, nous devons maintenant en tirer les leçons, et mettre en oeuvre des solutions pour éviter que tout ceci se reproduise. Nous allons donc renforcer dans les prochains jours très sensiblement cette partie de notre infrastructure et tout faire en sorte pour réduire au maximum les temps de rétablissement des services qu'une panne de cette importance pourrait engendrer, panne qui reste rarissime dans l'histoire de la plate-forme.

jb_canalblog

Publicité
Commentaires
Mante allô ?
Publicité
Archives
Publicité