Comment gérer un cluster Hadoop de 2800 noeuds et 150 M de conteneurs ?


Details
Mettre en oeuvre un cluster de plus de 2800 noeuds, 150 millions de conteneurs yarn par jour nécessite de mettre en oeuvre des principes d’architecture pour scaler, des techniques d’investigation live de la production, de fabriquer (et faire scaler) des outils de monitoring pour comprendre ce qui tourne dans le cluster. Il faut prendre des décisions de capacity planning et aider les utilisateurs à tuner leur jobs. William nous propose un survol de ce qui est fait chez Criteo pour adresser ces problématiques.
Apres quelques années passées sur les problématiques de scalabilité et de résilience de Voyages-SNCF.com, William (@willymontaz) est site reliability engineer chez Criteo. Avec son équipe, il maintient, met a jour les clusters Hadoop de Criteo et construit des outils de monitoring spécifiques à destination des développeurs.
Il sera accompagné de Nicolas Fraison, SRE depuis 2 ans de l'équipe en charge des clusters Hadoop et de l'outillage autour de cet écosystème.

Comment gérer un cluster Hadoop de 2800 noeuds et 150 M de conteneurs ?