Spark Meetup avec Databrick, Criteo, Qucit, Talend le mercredi 2 Novembre 2016


Details
Bonjour à tous,
Nous avons le plaisir de vous inviter au Spark meetup le Mercredi 2 novembre 2016 chez Criteo à 18h30.
*** Ouverture des enregistrements le jeudi 27 octobre à 9h30.
Attention, il est indispensable de renseigner votre Nom Prenom et email pour valider votre inscription! De plus, merci de ne pas utiliser de caractères accentuées pour votre nom et prénom, merci. ***
Un agenda composé de 4 présentations intéressantes vous attend pour ce meetup:
• 6h30-6h45 Welcome
• 6h45-7:15 : Going to large-scale and production-grade, with a simple regression: tips from the trenches par Anthony Truchet – Senior Software Engineer at Criteo (http://www.criteo.com)
Criteo performance advertising system heavily relies on large scale and simple ML models. Simplicity is indeed instrumental for low latency, thus we use a basic logistic regression for predicting click probability given a display opportunity. We are switching large parts of our learning system from an in house solution to Spark. Should be easy as Logistic regression is provided by MLlib, a few cells in a notebook and that’s it… True for ML classes but slightly more challenging when going at-scale and production-grade ! In this presentation we’ll share the crispiest bits of this journey and a few tips from the trenches.
• 7h15-8h45 : TensorFrames: comment intégrer Apache Spark avec Google TensorFlow par Tim Hunter - Software Engineer at Databricks (https://databricks.com/)
Depuis la création du projet Apache Spark en 2000, les progrès réalisés dans le domaine de la bande passante mémoire ont supplanté le développement de la puissance de calcul des ordinateurs. En conséquence, le processeur est devenu le facteur limitant dans nombre d'applications liées au Big Data. Avec l'intégration du projet Tungsten dans Spark 2.0, Spark génère maintenant du code machine optimisé pour les opérations SQL les plus courantes. En parallèle, il y a un intérêt majeur à employer les atouts de la carte graphique (GPU) pour de multiples applications, ce qui a amené la création de nombreux systèmes permettant le calcul numérique optimisé sur GPU.
Au cours de ce meetup, je présenterai comment intégrer Apache Spark avec TensorFlow, un systeme offert par Google qui fournit des primitives pour exécuter des tâches de Machine Learning (ML) sur des cartes graphiques. TensorFrames est une bibliothèque d'intégration qui permet aux développeurs d'écrire des transformations numériques dans un langage de haut niveau (Python, Scala) et de les exécuter de façon optimisée dans un cluster de cartes graphiques gérées par Spark. Cette présentation sera illustrée par un exemple interactif.
Timothée Hunter est ingénieur chez Databricks, l'entreprise créée par les fondateurs de Apache Spark, et un des contributeurs réguliers du projet MLlib. Ancien élève de l'Ecole Polytechnique et titulaire d'un doctorat en intelligence artificielle à UC Berkeley, il a développé de nombreux algorithmes distribués avec Spark depuis la version 0.2 de Apache Spark.
• 8h45-9h15 : Extension de sparkML pour la détection de pannes dans les vélos en libre service à New York par Rémi Delassus - DataScientist chez Qucit (http://www.qucit.com/)
Les différents modèles de machine learning disponibles dans les bibliothèques telles que sparkML ou MLlib sont habituellement illustrés d'exemples standards, tels que la reconnaissance de caractères avec MNIST ou le clustering avec lena.
Mais comment ces librairies s'adaptent elles à un probleme de Machine Learning plus spécifique ? À quel point est il facile de modifier, étendre, réutiliser les modèles proposés ?
On étudie ici l'application de SparkML (Spark 1.6, scala) à la détection de pannes grâce à des données de trajets au sein du système de vélos en libre service de New York. Elles représentent plusieurs millions de trajets répartis sur 3 ans d'activité.
• 9h15-9h45 : Introduction à Apache Beam par Jean Baptise Onofré - Apache member et Fellow at Talend (http://www.talend.com)
Apache Beam is an open source, unified programming model that you can use to create a data processing pipeline. You start by building a program that defines the pipeline using one of the open source Beam SDKs. The pipeline is then executed by one of Beam’s supported distributed processing back-ends, which include Apache Flink, Apache Spark, and Google Cloud Dataflow.
• 9h45 : networking
Merci de vous enregistrer afin que l’on puisse s’assurer du bon déroulement logistique.
Un grand merci à Criteo pour nous prêter leur salle et s'occuper de l'apéritif dinatoire.
http://photos1.meetupstatic.com/photos/event/3/9/9/e/600_455474750.jpeg
L'équipe HUG France
http://hugfrance.fr (http://hugfrance.fr/)
@hugfrance (http://www.twitter.com/hugfrance)

Spark Meetup avec Databrick, Criteo, Qucit, Talend le mercredi 2 Novembre 2016