Aller au contenu

Spark Meetup chez Criteo le jeudi 28 avril 2016

Photo de Carbone Cédric
Hosted By
Carbone C.
Spark Meetup chez Criteo le jeudi 28 avril 2016

Détails

EDIT: nous sommes contraints de reporter ce Spark Meetup au jeudi 28 avril.

Bonjour à tous,

Nous avons le plaisir de vous inviter au Spark meetup le Jeudi 28 avril 2016 chez Criteo à 18h30.

*** Attention, il est indispensable de renseigner votre Nom Prenom et email pour valider votre inscription! De plus, merci de ne pas utiliser de caractères accentuées pour votre nom et prénom, merci. ***

Un agenda intéressant vous attend pour ce meetup:

• 6h30-6h45 Welcome

• 6h45-7:30 : OpenTSDB for Hadoop infrastructure & service monitoring par Nathaniel BRAUN — Site Reliability Engineer chez Critéo
In order to maintain several Hadoop clusters totalling over 2000 nodes, we (the Lake team @ Criteo) needs a robust way to monitor its infrastructure efficiently. Moreover, we also have to help our clients analyze & debug their jobs running on the Hadoop clusters through support dashboards and long-term metrics. To achieve this goal, we settled on a solution using OpenTSDB over HBase, with a few twists.
Through this talk, I'll describe the Hadoop infrastructure @ Criteo, then I'll discuss a few problems we had to solve in order to make OpenTSDB scalable, and how we use it to monitor, analyze and debugs lots of issues we were faced with.

• 7h30-8h15 : Une architecture full streaming avec Kafka et Spark Streaming: un chemin semé d’embûches vers la Production par Nicolas Phung - Développeur Logiciel chez Figaro Classifieds

Pourquoi et Comment le premier job board des cadres Cadremploi est passé sur une architecture full streaming avec Kafka ? Description de ce type d’architecture par rapport à une lambda architecture. Puis comment convaincre et travailler de concert avec les équipes ops/sysadmin pour mettre Kafka, Spark Streaming et un cluster Hadoop Yarn pour réaliser du traitement de flux presque en temps réel sur les infrastructures propres de Figaro Classifieds. Présentation de nos résultats et des applications dérivées par la suite grâce à la mise en place de la plateforme (Analyse presque temps réel, use case Machine Learning).

Nicolas Phung est un Développeur Logiciel chez Figaro Classifieds, il travaille en transverse des produits Cadremploi.com et Keljob.com.

• 8h15-9h00 : Recettes appliquées dans l'optimisation d'un Datalab Hadoop / Spark / Mesos / Elasticserch par Hayssam Saleh, CTO ebiznext et Bruno Guilbot (Responsable Smart Data et Advanced Analytics chez Solocal Group)
Les GC intempestifs dus à l'utilisation abusive de la mémoire par les Job Spark, la répartition inégale des données sur HDFS, la distribution native inadéquate des traitements Spark par Mesos, les délais d’indexation dans Elasticsearch sont autant de problématiques que nous avons eu à résoudre.

Nous présentons à partir de Spark UI et Mesos UI les observations qui nous ont conduit à une évolution des algorithmes et à un tuning des paramètres de la JVM, de Spark et de Mesos.

Volumétrie concernée : 50 millions de requêtes / jour représentant un volume journalier de 100Go de données.

Développeur Apache Spark certifié, Hayssam Saleh est architecte sénior avec un focus particulier sur la tolérance aux pannes dans les systèmes distribués. Il est actuellement leader technique chez EBIZNEXT où il supervise les projets Scala / Spark / NoSQL depuis début 2012. Il est par ailleurs titulaire d'un doctorat sur les traitements distribués de l'université Pierre et Marie Curie (Paris VI).

• 9h00-10h00 : networking

Merci de vous enregistrer afin que l’on puisse s’assurer du bon déroulement logistique.

Un grand merci à Criteo pour nous prêter leur salle et s'occuper de l'apéritif dinatoire.

http://labs.criteo.com/wp-content/themes/criteolabs/img/logo.png

L'équipe HUG France
http://hugfrance.fr (http://hugfrance.fr/)
@hugfrance (http://www.twitter.com/hugfrance)

Photo of Paris Spark Meetup group
Paris Spark Meetup
Afficher d'autres événements
Criteo
32 Rue Blanche · Paris