Chaos Monkey est prêt à tester votre plateforme de jeu en ligne. La question est “Pouvez-vous gérer le chaos” ?
Paroles de David Sachs, PDG de Tomobox et expert en intelligence artificielle et connu pour son implication dans le jeu responsable et la lutte contre le blanchiment d’argent dans les jeux d’argent en ligne. Il a travaillé avec les principaux opérateurs, propriétaires de plateformes et régulateurs pour mettre en ?uvre des mesures de protection pour protéger les joueurs.
Essayez d’imaginer un groupe de singes qui courent autour de votre centre de données, tirant des cables, détruisant des routeurs et faisant des ravages sur vos applications et votre infrastructure. L’expérience du joueur est toujours plus cruciale en ces jours de concurrence acharnée entre les opérateurs de jeux d’argent en ligne. La continuité des opérations est “Uber-Alles” et éviter le désabonnement, d? à une interruption de service.
C’est exactement ce que l’équipe d’ingénierie de Netflix a con?u, lorsqu’elle a pensé à la résilience de l’infrastructure informatique à la fois matérielle et logicielle. Chaos Monkey est un outil inventé en 2011 par Netflix pour tester la résilience de son infrastructure informatique. Il fonctionne en désactivant intentionnellement les ordinateurs et les services de votre réseau de production pour tester comment les systèmes restants répondent à la panne. Chaos Monkey fait maintenant partie d’une plus grande suite d’outils appelée l’armée simienne, con?ue pour simuler et tester les réponses à diverses défaillances du système et cas extrêmes. Cela fait également partie d’un nouveau régime d’ingénierie baptisé SRE – Site Reliability Engineering (l’Ingénierie de la Fiabilité des Sites)
Un Ingénieur de Fiabilité de Site (SRE) passera jusqu’à 50% de son temps à effectuer des travaux liés aux “opérations” tels que la résolution d’incidents, les gardes et les interventions manuelles. Comme le système logiciel qu’un SRE supervise est censé être hautement automatique et auto-réparateur, le SRE devrait consacrer les 50 % restants de son temps à des taches de développement telles que les nouvelles fonctionnalités, la mise à l’échelle ou l’automatisation pour s’assurer que “Chaos Monkey” est sous contr?le.
Pourquoi est-ce fondamental pour l’expérience du joueur?
La continuité de service à l’ère du cloud est obligatoire et difficile à réaliser. Il existe un nombre infini d’événements qui peuvent mal tourner. Plusieurs fournisseurs desservent la plate-forme de jeu de n’importe quel opérateur en ligne, du CRM aux jeux mobiles et aux serveurs de paiement pour n’en nommer que quelques-uns. Toute interruption de service affecte des milliers de joueurs qui pourraient pratiquement “laisser de l’argent sur la table” pour que l’opérateur le perde.
Le SRE et la gestion des incidents font fureur aujourd’hui. Comme l’explique Werner Vogels, directeur technique d’Amazon, un événement majeur typique provoquant une panne : “Vous voyez les sympt?mes, mais vous ne voyez pas nécessairement la cause première de la panne … vous renvoyez immédiatement une équipe dont la tache est de communiquer réellement avec les clients … en s’assurant que tout le monde est au courant de ce qui se passe exactement”.
En attendant, poursuit-il, “les équipes internes commencent bien s?r immédiatement à se mettre en route et à essayer de trouver la cause première de cette situation, et si nous pouvons la réparer ou la restaurer, ou quels autres types d’actions nous pouvons commencer à entreprendre”. L’orchestration d’un événement est au c?ur des gestionnaires d’incidents et des SRE lorsque des perturbations se produisent.
L’avenir de l’orchestration d’incidents
La gestion d’un incident majeur s’est transformée d’un art obscur en une science mesurable. La gestion d’un incident consiste également à informer les clients, tels que les affiliés ou les partenaires, tout au long de l’événement. Au jour de la satisfaction immédiate, les clients ne cherchent pas à ce que vous leur disiez d’attendre, ils demandent à être informés. Pendant ce temps, les gestionnaires d’incidents s’efforcent de résoudre les problèmes et de s’assurer que la transparence régit leur action et que chaque partie prenante est informée. Parfois, cela signifie des centaines de personnes par incident.
Vogels le dit très clairement : “Je pense que nous pouvons nous blamer de ne pas avoir transformé cela en une sorte de procédure ou quelque chose d’automatisé, où nous aurions pu avoir un contr?le total sur le nombre de personnes.”
C’est un point clé pour Vogels : En grandissant et en se développant, l’introduction d’un trop grand nombre de points nécessitant une intervention humaine entra?ne des points d’échec possibles. Dans la mesure du possible, automatisez.
L’automatisation des procédures qui s’enclenchent au fur et à mesure des incidents vous aide à ma?triser l’événement et à réduire le temps de résolution. Divers fournisseurs ajoutent ces fonctionnalités à leur infrastructure de surveillance. Les anciens flux de travail opérationnels comme ServiceNow et les sociétés de surveillance de l’infrastructure comme PagerDuty ajoutent des couches supplémentaires de gestion des incidents à leur suite de services, grace à diverses intégrations avec des logiciels tiers. L’ingénieur SRE doit donc encore faire face à de multiples plates-formes de billetterie et de messagerie pendant l’incident.
Des pionniers comme Exigence réécrivent l’histoire et redéfinissent l’automatisation de l’approche des incidents autour d’une seule vitre. L’avenir de la gestion des incidents passe par un point de convergence unique, qui permettra aux équipes SRE de se concentrer efficacement sur la résolution et le rapport post-mortem plut?t que de consacrer des efforts sans fin à l’auto-développement et aux intégrations.
L’avenir de la gestion des points de défaillance logiciels et matériels sans fin, est basé sur une intégration proactive de la fiabilité du site entre le NOC et l’ingénierie. Il exige également un niveau élevé d’automatisation des événements et de préparation face à l’augmentation des incidents.
Le Numéro 5 du Magazine Block est disponible :
Le Magazine Block est publié deux fois par an et met en lumière des secteurs de pointe comme l’IA, la blockchain, la cryptographie ou les technologies émergentes. Le magazine est tiré à 5 000 exemplaires et livré aux principaux acteurs de l’industrie mondiale. Consultez notre dernier numéro du Block ici.