Data NoBlaBla Bis : Data Munging avec Spark - Partie I

This is a past event

17 people went

Location visible to members

Details

Suite aux retours très encourageants lors du premier atelier, nous allons proposer une version de rattrapage pour ceux qui n’ont pas pu venir à la première édition du Data NoBlaBla "Data Munging avec Spark - Partie I"

Pour ceux qui ne connaissent pas encore le concept, le "Data NoBlaBla" est un atelier pratique pour apprendre à faire de la data science (et mettre les mains dans le cambouis !).

Voici l'annonce :

En 2012 Harvard Business Review (https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/) titrait déjà le métier de data scientist comme le plus sexy du 21ème siècle. Rattrapés par le quotidien de la data science en entreprise, deux ans plus tard, la même revue publiait un autre article intitulé “The Sexiest Job of the 21st Century is Tedious, and that Needs to Change (https://hbr.org/2014/04/the-sexiest-job-of-the-21st-century-is-tedious-and-that-needs-to-change/)” !

crédit photo (JD Hancock (https://www.flickr.com/photos/jdhancock/3572350703/in/gallery-robin1010-72157632940473920/))

Et oui, cruelle réalité : selon les entretiens avec les experts du domaine, les data scientists passent entre 50% et 80% de leur temps à nettoyer, préparer et transformer la donnée brute en format exploitable pour leurs analyses - ce qu’ils appellent le data munging, data wrangling ou encore, “data janitor” work. Bye bye la vision romantique de super star de la data !

C’est pour faire face à des données désordonnées, non structurées et volumineuses que nous vous proposons cet atelier pratique autour de cette tâche certes laborieuse mais fondamentale dans la data science.

Alexia Audevart, data enthousiaste chez Ekito, nous fait découvrir le processus de nettoyage et transformation des données brutes en données “propres” avec Apache Spark (http://spark.apache.org/).

Apache Spark est un framework open source généraliste, conçu pour le traitement distribué de données. C’est une extension du modèle MapReduce avec l’avantage de pouvoir traiter les données en mémoire et de manière interactive. Spark offre un ensemble de composants pour l’analyse de données: Spark SQL, Spark Streaming, MLlib (machine learning) et GraphX (graphes).

Cet atelier se concentrer sur les fondamentaux de Spark et le paradigme de traitement de données avec l’interface de programmation Python (plus précisément PySpark).

L’installation, configuration, traitement sur cluster, Spark Streaming, MLlib et GraphX ne seront pas abordés dans cet atelier.

A la fin de cet atelier, vous serez capable de :

- Comprendre les fondamentaux de Spark et le situer dans l'écosystème Big Data ;

- Savoir la différence avec Hadoop MapReduce ;

- Utiliser les RDD (Resilient Distributed Datasets) ;

- Utiliser les actions et transformations les plus courantes pour manipuler et analyser des données ;

- Ecrire un pipeline de transformation de données ;

- Utiliser l’API de programmation PySpark.

Quels sont les pré-requis ?

Au TDS, notre objectif c’est de rendre la data science accessible à tous ceux qui sont intéressés par ce domaine. Toutefois, pour mieux profiter de cet atelier il est fort recommandé de :

- Connaître les base du langage Python (ou apprendre rapidement via ce cours en ligne Python Introduction (https://developers.google.com/edu/python/introduction))

- Être sensibilisé au traitement de la donnée avec Pig, Hive, MapReduce Java ou Cascading/Scalding

Aucune connaissance préalable en traitement distribué et Apache Spark n’est demandée. C’est un atelier introductoire.

Agenda :

- 18:30 - Accueil de participants, préparation des ordinateurs et petit déjeuner

- 19:00 - Démarrage atelier

- 21:30 - Conclusion

Bio: Alexia Audevart est data enthousiaste chez Ekito et membre de l'organisation du Toulouse Data Science. Après avoir passée près de 10 ans à développer des applications Java/J2EE, Alexia s'est orientée depuis 2 ans sur le Big Data et la Data Science.

Comment me préparer pour cet atelier ?

Vous devez être muni d’un ordinateur portable relativement récent et avec un navigateur internet (de préférence Chrome ou Firefox). Vous devez pouvoir vous connecter à Internet via le Wifi.

Un espace online (Jupyter Notebook) sera fourni à chaque participant afin de suivre les exercices. Aucune installation n'est donc nécessaire. Toutefois, ceux qui souhaitent, peuvent installer Docker sur leur machine et télécharger l’image de l’atelier ici: https://hub.docker.com/r/noleto/pyspark-jupyter/

Les supports (exercices et données à nettoyer) seront fournis avant l’atelier aux participants inscrits.

Un grand merci à notre sponsor Dexstr (http://www.dexstr.io/) qui nous aider à diffuser la data science auprès de tous les data passionnés !

Empower your biopharmaceutical R&D with translational science software

Un spécial merci à Etincelle Coworking (http://www.coworking-toulouse.com/) qui nous accueille aimablement dans leur nouveaux locaux aux Carmes !

-------------------------------------------------------------------------

Les meetups peuvent être filmés et le public photographié au long de l'événement. En participant à ces rencontres vous autorisez la publication des photos sur notre site Toulouse Data Science Meetup. Cette autorisation n'inclut pas une utilisation publicitaire d'image.

------------------------------------------------------------------------