SlideShare a Scribd company logo
1 of 33
Sponsorisé par
22 novembre 2018
@BenjaminGakic
Chaos Engineer & SRE chez OUI.sncf
Benjamin Gakic
Pour la première fois, les indisponibilités
arrivent en tête des sujets d’inquiétude
des responsables informatiques,
devançant ainsi la sécurité.
Sondage réalisé sur un échantillon de 400 entreprises en Grande-Bretagne,
Allemagne, France, Suède et Pays-Bas par Quocirca pour Splunk
Source: Master of Machines III - Réduire l’impact des incidents IT Quocirca
Un incident majeur est si vite arrivé…
Qu’est-ce que la résilience?
CHAOS ENGINEERING
« Discipline de l'expérimentation sur un système distribué afin de
renforcer la confiance dans la capacité du système à résister à des
conditions turbulentes en production. »
http://principlesofchaos.org/
initiée par
Les étapes de l’expérimentation
1. Que cherche-t-on à prouver?
2. Restreindre le périmètre
3. Identifier ce qu’il faut observer
4. Communiquer!
5. Injecter le chaos
6. Analyser consciencieusement les impacts
7. Et Recommencer!
POC
Squad inter-équipe dev & ops
Développement en mode expérimental,
à base de mini-hackatons
Mars 2016
Mai 2017
Demain
Janvier 2016
Octobre 2016
Janvier 2017
Septembre 2018
Février 2018
Communauté
Résilience et Tests Techniques
Objectifs :
• Proposer des outils de test de résilience
• Aider à la mise en place des outils et patterns
• Apporter un changement culturel
Mars 2016
Mai 2017
Demain
Janvier 2016
Octobre 2016
Janvier 2017
Septembre 2018
Février 2018
Grâce à la communauté
nous disposons d’un bestiaire
à l’image de la Simian army
de Netflix
Mars 2016
Mai 2017
Demain
Janvier 2016
Octobre 2016
Janvier 2017
Septembre 2018
Février 2018
Days of Chaos
Chapter One
Vendredi 13 Janvier 2017
Mars 2016
Mai 2017
Demain
Janvier 2016
Octobre 2016
Janvier 2017
Septembre 2018
Février 2018
Game Day
Days of Chaos
Chapter One
Vendredi 13 Janvier 2017
DaysofChaos
Vous allez subir des vagues de pannes en provenance des tréfonds de l’exploitation.
Votre mission est de repousser ces vagues et de
détecter, diagnostiquer et résoudre
les pannes le plus vite possible.
L’avenir de notre production dépend de vous…
Détection :
+100
Diagnostic :
+150
Résolution :
+200
Bonus 1ère proposition:
+100
Indice :
-50
Nombrederounds: 8
Récompenses:
3
Résolution Dev
Incident Ops
Détection Dev Diagnostic Dev
Remise en état...
Validation Ops
Gestion d’une panne Question bonus Vidéo explicative1 2 3
113 joueurs
18 équipes 2 commentateurs
2 aides de camp
8 ops
Objectif accompli !
Détection : 87%
Diagnostic : 73%
Résolution : 45%
Supervision et alerting
Tests techniques
Partage des connaissances
8 -> 6 pannes
4h -> 3h30 de jeu
80% Intérêt du jeu
70% Qualité de l’organisation
74% Prise de conscience
Communication et marketing
Emulation DevOps : cohésion intra
et inter-équipes
Gamification
Points forts
Days of Chaos
Chapter 1
Days of Chaos
Chapter 2
CHAPTER 3Vendredi 13/01/2017
Vendredi
07/07/2017
VENDREDI 13/07/2018
Un Day of Chaos c’est du Chaos Engineering? Mais on est pas en prod!!!
https://medium.com/russmiles/chaos-engineering-for-the-business-17b723f26361
Premier Chaos Monkey en production…
…et la production marche toujours
Mars 2016
Mai 2017
Demain
Janvier 2016
Octobre 2016
Janvier 2017
Septembre 2018
Février 2018
Mars 2016
Mai 2017
Demain
Janvier 2016
Octobre 2016
Janvier 2017
Septembre 2018
Février 2018
Mars 2016
Mai 2017
Demain
Janvier 2016
Octobre 2016
Janvier 2017
Septembre 2018
Février 2018
Industrialiser et généraliser le
Chaos Engineering
Mars 2016
Mai 2017
Demain
Janvier 2016
Octobre 2016
Janvier 2017
Septembre 2018
Février 2018
En production
La vraie vie, avec des vrais utilisateurs et
potentiellement de la perte de VA.
Communication
Mettre en place du Chaos n’est pas la meilleure
façon de rencontrer vos nouveaux collègues,
mais c’est la plus rapide.
Nora Jones (@nora_js)
Gamification
Rendre l’apprentissage plus amusant
en s’appuyant sur la prédisposition
humaine au jeu
Expérimentation
Les principaux points à retenir
Validation de ce qui est important sur
votre infrastructure. Votre résilience
n’est pas celle des autres.
https://days-of-chaos.slack.com
Paris Chaos Engineering Meetup
http://meetu.ps/c/3BMlX/xNjMx/f https://chaosengineering.slack.com
http://days-of-chaos.com/
https://medium.com/paris-
chaos-engineering-
community
let’s PLAY!
Mais juste avant…

More Related Content

Similar to Meetup aws user group lille 2018 chaos engineering

Radical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptxRadical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptxFlavian Hautbois
 
Cloud Expo Europe 2018 - "Et si on testait en production ?"
Cloud Expo Europe 2018 - "Et si on testait en production ?"Cloud Expo Europe 2018 - "Et si on testait en production ?"
Cloud Expo Europe 2018 - "Et si on testait en production ?"Christophe Rochefolle
 
Rapide introduction au concepts du Chaos Engineering
Rapide introduction au concepts du Chaos EngineeringRapide introduction au concepts du Chaos Engineering
Rapide introduction au concepts du Chaos EngineeringSylvain Hellegouarch
 
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...Philippe Beraud
 
Ajest formation-advanced-junos-enterprise-security-troubleshooting
Ajest formation-advanced-junos-enterprise-security-troubleshootingAjest formation-advanced-junos-enterprise-security-troubleshooting
Ajest formation-advanced-junos-enterprise-security-troubleshootingCERTyou Formation
 
Les tests et la qualité: moteur de productivité (v.2016-07)
Les tests et la qualité: moteur de productivité (v.2016-07)Les tests et la qualité: moteur de productivité (v.2016-07)
Les tests et la qualité: moteur de productivité (v.2016-07)Elapse Technologies
 
2011 02-08-ms tech-days-sdl-sgi-v02
2011 02-08-ms tech-days-sdl-sgi-v022011 02-08-ms tech-days-sdl-sgi-v02
2011 02-08-ms tech-days-sdl-sgi-v02Sébastien GIORIA
 
Cybersécurité - Comment protéger ses activités ?
Cybersécurité - Comment protéger ses activités ?Cybersécurité - Comment protéger ses activités ?
Cybersécurité - Comment protéger ses activités ?Alain EJZYN
 
Conseils de survie pour hiérarchiser les cybermenaces
Conseils de survie pour hiérarchiser les cybermenacesConseils de survie pour hiérarchiser les cybermenaces
Conseils de survie pour hiérarchiser les cybermenacesOpen Source Experience
 
Introduction à la qualité logicielle (1/5)
Introduction à la qualité logicielle (1/5)Introduction à la qualité logicielle (1/5)
Introduction à la qualité logicielle (1/5)Sylvain Leroy
 
Sécurité informatique - Etat des menaces
Sécurité informatique - Etat des menacesSécurité informatique - Etat des menaces
Sécurité informatique - Etat des menacesMaxime ALAY-EDDINE
 
Softshake 2015 comment tester et optimiser la performance d'un si
Softshake 2015   comment tester et optimiser la performance d'un siSoftshake 2015   comment tester et optimiser la performance d'un si
Softshake 2015 comment tester et optimiser la performance d'un siMarc Bojoly
 
Supervision d'un réseau informatique avec Nagios
Supervision d'un réseau informatique avec NagiosSupervision d'un réseau informatique avec Nagios
Supervision d'un réseau informatique avec Nagioschristedy keihouad
 
Afterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussiAfterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussicyrilpicat
 
L'ADN d'un développement produit réussi
L'ADN d'un développement produit réussiL'ADN d'un développement produit réussi
L'ADN d'un développement produit réussiOCTO Technology Suisse
 
Sécurité dans les contrats d'externalisation de services de développement et ...
Sécurité dans les contrats d'externalisation de services de développement et ...Sécurité dans les contrats d'externalisation de services de développement et ...
Sécurité dans les contrats d'externalisation de services de développement et ...Antonio Fontes
 
#DevOps - Et si on déployait le vendredi
#DevOps - Et si on déployait le vendredi#DevOps - Et si on déployait le vendredi
#DevOps - Et si on déployait le vendrediChristophe Rochefolle
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?Marc Bojoly
 
Keynote Retmo2018 : le test QA et UAT en méthode agile
Keynote Retmo2018 : le test QA et UAT en méthode agileKeynote Retmo2018 : le test QA et UAT en méthode agile
Keynote Retmo2018 : le test QA et UAT en méthode agileStardustTesting
 

Similar to Meetup aws user group lille 2018 chaos engineering (20)

Radical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptxRadical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptx
 
Cloud Expo Europe 2018 - "Et si on testait en production ?"
Cloud Expo Europe 2018 - "Et si on testait en production ?"Cloud Expo Europe 2018 - "Et si on testait en production ?"
Cloud Expo Europe 2018 - "Et si on testait en production ?"
 
Rapide introduction au concepts du Chaos Engineering
Rapide introduction au concepts du Chaos EngineeringRapide introduction au concepts du Chaos Engineering
Rapide introduction au concepts du Chaos Engineering
 
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...
 
Ajest formation-advanced-junos-enterprise-security-troubleshooting
Ajest formation-advanced-junos-enterprise-security-troubleshootingAjest formation-advanced-junos-enterprise-security-troubleshooting
Ajest formation-advanced-junos-enterprise-security-troubleshooting
 
Les tests et la qualité: moteur de productivité (v.2016-07)
Les tests et la qualité: moteur de productivité (v.2016-07)Les tests et la qualité: moteur de productivité (v.2016-07)
Les tests et la qualité: moteur de productivité (v.2016-07)
 
2011 02-08-ms tech-days-sdl-sgi-v02
2011 02-08-ms tech-days-sdl-sgi-v022011 02-08-ms tech-days-sdl-sgi-v02
2011 02-08-ms tech-days-sdl-sgi-v02
 
Cybersécurité - Comment protéger ses activités ?
Cybersécurité - Comment protéger ses activités ?Cybersécurité - Comment protéger ses activités ?
Cybersécurité - Comment protéger ses activités ?
 
Conseils de survie pour hiérarchiser les cybermenaces
Conseils de survie pour hiérarchiser les cybermenacesConseils de survie pour hiérarchiser les cybermenaces
Conseils de survie pour hiérarchiser les cybermenaces
 
Introduction à la qualité logicielle (1/5)
Introduction à la qualité logicielle (1/5)Introduction à la qualité logicielle (1/5)
Introduction à la qualité logicielle (1/5)
 
Sécurité informatique - Etat des menaces
Sécurité informatique - Etat des menacesSécurité informatique - Etat des menaces
Sécurité informatique - Etat des menaces
 
Softshake 2015 comment tester et optimiser la performance d'un si
Softshake 2015   comment tester et optimiser la performance d'un siSoftshake 2015   comment tester et optimiser la performance d'un si
Softshake 2015 comment tester et optimiser la performance d'un si
 
Supervision d'un réseau informatique avec Nagios
Supervision d'un réseau informatique avec NagiosSupervision d'un réseau informatique avec Nagios
Supervision d'un réseau informatique avec Nagios
 
Afterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussiAfterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussi
 
L'ADN d'un développement produit réussi
L'ADN d'un développement produit réussiL'ADN d'un développement produit réussi
L'ADN d'un développement produit réussi
 
Sécurité dans les contrats d'externalisation de services de développement et ...
Sécurité dans les contrats d'externalisation de services de développement et ...Sécurité dans les contrats d'externalisation de services de développement et ...
Sécurité dans les contrats d'externalisation de services de développement et ...
 
ITrust Company Overview FR
ITrust Company Overview FRITrust Company Overview FR
ITrust Company Overview FR
 
#DevOps - Et si on déployait le vendredi
#DevOps - Et si on déployait le vendredi#DevOps - Et si on déployait le vendredi
#DevOps - Et si on déployait le vendredi
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?
 
Keynote Retmo2018 : le test QA et UAT en méthode agile
Keynote Retmo2018 : le test QA et UAT en méthode agileKeynote Retmo2018 : le test QA et UAT en méthode agile
Keynote Retmo2018 : le test QA et UAT en méthode agile
 

Meetup aws user group lille 2018 chaos engineering

  • 2. @BenjaminGakic Chaos Engineer & SRE chez OUI.sncf Benjamin Gakic
  • 3. Pour la première fois, les indisponibilités arrivent en tête des sujets d’inquiétude des responsables informatiques, devançant ainsi la sécurité. Sondage réalisé sur un échantillon de 400 entreprises en Grande-Bretagne, Allemagne, France, Suède et Pays-Bas par Quocirca pour Splunk Source: Master of Machines III - Réduire l’impact des incidents IT Quocirca
  • 4. Un incident majeur est si vite arrivé…
  • 5. Qu’est-ce que la résilience?
  • 6.
  • 7.
  • 8. CHAOS ENGINEERING « Discipline de l'expérimentation sur un système distribué afin de renforcer la confiance dans la capacité du système à résister à des conditions turbulentes en production. » http://principlesofchaos.org/ initiée par
  • 9. Les étapes de l’expérimentation 1. Que cherche-t-on à prouver? 2. Restreindre le périmètre 3. Identifier ce qu’il faut observer 4. Communiquer! 5. Injecter le chaos 6. Analyser consciencieusement les impacts 7. Et Recommencer!
  • 10. POC Squad inter-équipe dev & ops Développement en mode expérimental, à base de mini-hackatons Mars 2016 Mai 2017 Demain Janvier 2016 Octobre 2016 Janvier 2017 Septembre 2018 Février 2018
  • 11. Communauté Résilience et Tests Techniques Objectifs : • Proposer des outils de test de résilience • Aider à la mise en place des outils et patterns • Apporter un changement culturel Mars 2016 Mai 2017 Demain Janvier 2016 Octobre 2016 Janvier 2017 Septembre 2018 Février 2018
  • 12. Grâce à la communauté nous disposons d’un bestiaire à l’image de la Simian army de Netflix Mars 2016 Mai 2017 Demain Janvier 2016 Octobre 2016 Janvier 2017 Septembre 2018 Février 2018
  • 13. Days of Chaos Chapter One Vendredi 13 Janvier 2017 Mars 2016 Mai 2017 Demain Janvier 2016 Octobre 2016 Janvier 2017 Septembre 2018 Février 2018
  • 15. Days of Chaos Chapter One Vendredi 13 Janvier 2017
  • 16. DaysofChaos Vous allez subir des vagues de pannes en provenance des tréfonds de l’exploitation. Votre mission est de repousser ces vagues et de détecter, diagnostiquer et résoudre les pannes le plus vite possible. L’avenir de notre production dépend de vous… Détection : +100 Diagnostic : +150 Résolution : +200 Bonus 1ère proposition: +100 Indice : -50 Nombrederounds: 8 Récompenses: 3
  • 17. Résolution Dev Incident Ops Détection Dev Diagnostic Dev Remise en état... Validation Ops Gestion d’une panne Question bonus Vidéo explicative1 2 3
  • 18.
  • 19.
  • 20. 113 joueurs 18 équipes 2 commentateurs 2 aides de camp 8 ops
  • 21. Objectif accompli ! Détection : 87% Diagnostic : 73% Résolution : 45%
  • 22. Supervision et alerting Tests techniques Partage des connaissances 8 -> 6 pannes 4h -> 3h30 de jeu 80% Intérêt du jeu 70% Qualité de l’organisation 74% Prise de conscience
  • 23. Communication et marketing Emulation DevOps : cohésion intra et inter-équipes Gamification Points forts
  • 24. Days of Chaos Chapter 1 Days of Chaos Chapter 2 CHAPTER 3Vendredi 13/01/2017 Vendredi 07/07/2017 VENDREDI 13/07/2018
  • 25. Un Day of Chaos c’est du Chaos Engineering? Mais on est pas en prod!!! https://medium.com/russmiles/chaos-engineering-for-the-business-17b723f26361
  • 26. Premier Chaos Monkey en production… …et la production marche toujours Mars 2016 Mai 2017 Demain Janvier 2016 Octobre 2016 Janvier 2017 Septembre 2018 Février 2018
  • 27. Mars 2016 Mai 2017 Demain Janvier 2016 Octobre 2016 Janvier 2017 Septembre 2018 Février 2018
  • 28. Mars 2016 Mai 2017 Demain Janvier 2016 Octobre 2016 Janvier 2017 Septembre 2018 Février 2018
  • 29. Industrialiser et généraliser le Chaos Engineering Mars 2016 Mai 2017 Demain Janvier 2016 Octobre 2016 Janvier 2017 Septembre 2018 Février 2018
  • 30. En production La vraie vie, avec des vrais utilisateurs et potentiellement de la perte de VA. Communication Mettre en place du Chaos n’est pas la meilleure façon de rencontrer vos nouveaux collègues, mais c’est la plus rapide. Nora Jones (@nora_js) Gamification Rendre l’apprentissage plus amusant en s’appuyant sur la prédisposition humaine au jeu Expérimentation Les principaux points à retenir Validation de ce qui est important sur votre infrastructure. Votre résilience n’est pas celle des autres.
  • 31. https://days-of-chaos.slack.com Paris Chaos Engineering Meetup http://meetu.ps/c/3BMlX/xNjMx/f https://chaosengineering.slack.com http://days-of-chaos.com/ https://medium.com/paris- chaos-engineering- community
  • 32.

Editor's Notes

  1. Les organisations européennes connaissent en moyenne 3 incidents IT par mois. 2/3 (65%) des organisations européennes rapportent qu’un incident IT a déjà eu des conséquences sur leur réputation, engendrant des répercutions financières (115 k€).
  2. On veut de la séduction? Préparons notre jeu comme un jeu vidéo avec une vrai jaquette!
  3. Besoin d’implication forte de la partie ops. Présentation comme un jeu mais aussi comme une opportunité de faire un « vie ma vie d’exploitant ». Permettre de sensibiliser les équipes au travail fait et aux pannes les plus fréquentes ou au besoin de bien communiquer et développer les applications. 2 ateliers de création des pannes : 20 exploitants mobilisés en 2 sessions d’une heure. 40 pannes proposées. 15 short listées pour leur pertinence. 8 sélectionnées par facilité de mise en oeuvre et possibilité de résolution par les équipes de dev (il faut rester pragmatique). Désignation d’une équipe de choc pour gérer le scripting et la réalisation des pannes
  4. Phase de com’ – Opération séduction Des affiches de teasing créant une rupture avec toutes les autres opérations de com’ réalisées jusqu’à présent. Le thème principal : le jeu de guerre en reprenant comme support culturel « Ender’s Game (la strategie Ender) » de Scott Orson card. Des affiches posées avec très peu d’information, juste un « engagez-vous ». Un ajout à un moment donné d’une adresse vers un site interne réalisé pour l’événement avec sa propre charte graphique et son formulaire d’engagement. Une com’ réglementaire par mail venant compléter le tout et enfonçant le clou.
  5. Phase de jeu – Le jour J Début à 9h 4 + 8 + 5 personnes dédiées au déroulement. Deux commentateurs maitres de cérémonie (un à Paris, un à Nantes), une aide ops, une chargée de classement et de décompte de points, 8 ops à 150%, 2 com’ interne, 3 services généraux. Une conf Skype avec deux commentateurs donnant des informations sur le déroulement et les avancées du jeu Une room hipchat pour les communications officielles et les réponses Une conf Skype dediée ops 7 pannes déroulées dont une a râté. Une dernière annulée suite à un incident sur la preprod. Fin à 12h30 Remise des prix à 14h. Plus de 200 spectateurs
  6. War room côté ops pour éviter une conf dédiée parallèle + effet je suis dédié à l’événement. Possibilité pour les ops de participer à la conf gobale Prévoir plus d’ops pour faciliter le traitement des demandes des équipes. Descendre de 4h à 3h d’événement. Pousser peu plus loin les répétitions et les préparations des pannes. Planifier la fin des inscriptions plus tôt. Laisser un délais de un mois entre la fin des inscriptions et l’événement.
  7. Un sujet difficile, peu motivant rendu plus accessible par la gamification