Skip to content

Meetup #10: Spark avec Tim Hunter

Photo of Julien Cartigny
Hosted By
Julien C.
Meetup #10: Spark avec Tim Hunter

Details

Si vous voulez commencer à comprendre ou compléter votre connaissance de Spark, nous sommes heureux d'accueillir pour ce dixième meetup Tim Hunter (https://spark-summit.org/eu-2017/speakers/tim-hunter/), développeur Spark pour databrick (la compagnie derrière Spark). Nous pouvions difficilement trouver mieux pour parler de cet environnement.

Speakers

Mais il ne sera pas seul ! Le programme est le suivant:

• Julien Cartigny (https://www.linkedin.com/in/kartoch/) (Université de Lille (https://www.univ-lille.fr/)): introduction & "une rapide introduction à Spark" (18h30)

• José Coral (https://www.linkedin.com/in/jos%C3%A9-corral-gallego-86918172/) (Skapane (http://skapane.com/)): "Spark et Data Partitioning: application aux données médicales"

• Tim Hunter (https://www.linkedin.com/in/timotheehunter/) (Databrick (https://databricks.com/)): "TensorFrames: Spark + TensorFlow"

• Morgan Gautherot (https://www.linkedin.com/in/morgan-gautherot-05a227108/) (Open (https://www.open.global/)) et Hugo Jaouen (https://www.linkedin.com/in/hugo-jaouen-738a5284/) (CACF (https://www.ca-consumerfinance.com/)): "SparkBox, AutoML for Spark"

Program details

• Spark et Data Partitioning: application aux données médicales: Spark est un outil fantastique quand on peut paralléliser les traitements grâce au "Data partitioning", car on bénéficie du traitement local sur chaque worker. Dans les cas où cette approche n'est pas adaptée, les performances baissent à cause des échanges réseaux entre les Workers, notamment en cas de "full shuffle". Pour certaines structures de données, par exemple les échantillons capturés par spectrométrie de masse, on collecte des données tri-dimensionnelles de la forme : ( X,Y,Z) où les trois dimensions sont de grande taille. Le problème est que certains traitements concernent un même Z sur tous les (X,Y) et d'autres tous les Z pour un seul X, un seul Y ou un même (X,Y). D'autre part, le volume de données à traiter est beaucoup plus important que les méthodes d'imagerie médicale. Plusieurs approches sont possibles: comment traiter les données d'entrée qui ne sont pas du tout orientés "ligne" ? stocker plusieurs fois les données avec des formats différents pour utiliser le Data partitioning ? utiliser le GPGPU sur chaque worker ? Cette intervention présentera un cas concret et l'approche choisie par Skapánê pour le gérer.

• TensorFrames: Spark + TensorFlow: Since the creation of Apache Spark, I/O throughput has increased at a faster pace than processing speed. In a lot of big data applications, the bottleneck is increasingly the CPU. With the release of Apache Spark 2.0 and Project Tungsten, Spark runs a number of control operations close to the metal. At the same time, there has been a surge of interest in using GPUs (the Graphics Processing Units of video cards) for general purpose applications, and a number of frameworks have been proposed to do numerical computations on GPUs.In this talk, we will discuss how to combine Apache Spark with TensorFlow, a new framework from Google that provides building blocks for Machine Learning computations on GPUs. Through a binding between Spark and TensorFlow called TensorFrames, distributed numerical transforms on Spark DataFrames and Datasets can be expressed in a high-level language and still rely on highly optimized implementations.The developers of the TensorFrames package will provide an overview, a live demo on Databricks and a presentation of the future plans. For experts, this talk will also include some technical details on design decisions, the current implementation, and ongoing work on speed and performance optimizations for numerical applications.

• SparkBox, AutoML for Spark: Dans un contexte d’évolution des outils et des méthodes de modélisation prédictive, CACF veille à rester leader dans les démarches de datascience. La SparkBox est une implémentation sur Spark du concept d'AutoML, c'est à dire la recherche par optimisation d'algorithmes de machine learning et de ses paramètres pour un problème donné. Le développement d’un tel programme est un enjeu fort afin de garantir les meilleurs outils pour nos Datascientists. Cette intervention présentera les fonctionnalités de la Sparkbox et de ses résultats.

Sponsors

Un grand merci aux deux sponsors qui nous aident pour ce meetup.

Open

https://secure.meetupstatic.com/photos/event/4/c/7/d/600_465799581.jpeg

Avec près de 3.650 collaborateurs en France et à l’international, OPEN figure parmi les 10 premières ESN françaises (CA 2016 : 305 M€) et exerce ses métiers en conjuguant professionnalisme, innovation et proximité à travers une organisation intégrée au plus près des centres de décision et de production de ses clients.

OPEN se positionne comme un acteur de la Performance des Directions Informatiques en accompagnant ses clients dans leur transformation industrielle et digitale au travers d’une offre de bout-en-bout qui en fait son originalité. Cette offre est composée d’un ensemble de Services, d’Expertises et de Solutions.

Open Lille recherche continuellement de nouveaux talents pour accompagner sa croissance

Profil junior ou expérimenté en développement Java JEE, COBOL, PHP, C#, Angular ou en Test, DevOps, BigData, Automatisation, Cloud…

Vous avez envie de donner une nouvelle impulsion à votre carrière, de développer une expertise, d’évoluer vers des postes de coordination et d’accompagnement ?

N’hésitez plus rejoignez nos équipes et dynamisez votre carrière avec Open Lille !

https://emploi.open-groupe.com/emploi/lambersart/dynamisez-votre-carriere-avec-open-lille/5735/5841928

Databricks

https://secure.meetupstatic.com/photos/event/4/c/9/4/600_465799604.jpeg

Simplify big data and AI with a platform from the team that started Apache Spark.

Bios

• Tim Hunter is a software engineer at Databricks and contributes to the Apache Spark MLlib project, as well as the GraphFrames, TensorFrames and Deep Learning Pipelines libraries. He has been building distributed Machine Learning systems with Spark since version 0.2, before Spark was an Apache Software Foundation project.

• Morgan Gautherot, Data Scientist junior fraîchement diplômé de la spécialité Génie Informatique et Statistique de l'école Polytech Lille. Passionné par l'algorithmie, les maths et le machine learning, passe son temps libre entre les concours kaggle, les meet up et les mooc. Il est intéressé par toute personne voulant échanger sur le domaine du machine learning et de la data science.

Photo of Data Lille group
Data Lille
See more events
Polytech Lille
Avenue Paul Langevin · Villeneuve d’Ascq