Data NoBlaBla : Data Munging avec Apache Spark - Partie I - (Mardi)

This is a past event

22 people went

Location image of event venue

Details

En 2012 Harvard Business Review (https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/) titrait déjà le métier de data scientist comme le plus sexy du 21ème siècle. Rattrapés par le quotidien de la data science en entreprise, deux ans plus tard, la même revue publiait un autre article intitulé “The Sexiest Job of the 21st Century is Tedious, and that Needs to Change (https://hbr.org/2014/04/the-sexiest-job-of-the-21st-century-is-tedious-and-that-needs-to-change/)” !

crédit photo (JD Hancock (https://www.flickr.com/photos/jdhancock/3572350703/in/gallery-robin1010-72157632940473920/))

Et oui, cruelle réalité : selon les entretiens avec les experts du domaine, les data scientists passent entre 50% et 80% de leur temps à nettoyer, préparer et transformer la donnée brute en format exploitable pour leurs analyses - ce qu’ils appellent le data munging, data wrangling ou encore, “data janitor” work. Bye bye la vision romantique de super star de la data !

C’est pour faire face à des données désordonnées, non structurées et volumineuses que nous vous proposons cet atelier pratique autour de cette tâche certes laborieuse mais fondamentale dans la data science.

Leonardo Noleto, data scientist chez OVH, nous fait découvrir le processus de nettoyage et transformation des données brutes en données “propres” avec Apache Spark (http://spark.apache.org/).

Apache Spark est un framework open source généraliste, conçu pour le traitement distribué de données. C’est une extension du modèle MapReduce avec l’avantage de pouvoir traiter les données en mémoire et de manière interactive. Spark offre un ensemble de composants pour l’analyse de données: Spark SQL, Spark Streaming, MLlib (machine learning) et GraphX (graphes).

Cet atelier se concentrer sur les fondamentaux de Spark et le paradigme de traitement de données avec l’interface de programmation Python (plus précisément PySpark).

L’installation, configuration, traitement sur cluster, Spark Streaming, MLlib et GraphX ne seront pas abordés dans cet atelier.

A la fin de cet atelier, vous serez capable de :

- Comprendre les fondamentaux de Spark et le situer dans l'écosystème Big Data ;

- Savoir la différence avec Hadoop MapReduce ;

- Utiliser les RDD (Resilient Distributed Datasets) ;

- Utiliser les actions et transformations les plus courantes pour manipuler et analyser des données ;

- Ecrire un pipeline de transformation de données ;

- Utiliser l’API de programmation PySpark.

Cet atelier est le premier d’une série de 3 ateliers avec Apache Spark. Pour suivre les prochains ateliers, vous devez avoir suivi les précédents ou être à l’aise avec les sujets déjà traités.

Cet atelier sera réalisé 2 fois : Le Mardi 8 Décembre et le Samedi 12 Décembre.

Quels sont les pré-requis ?

Au TDS, notre objectif c’est de rendre la data science accessible à tous ceux qui sont intéressés par ce domaine. Toutefois, pour mieux profiter de cet atelier il est fort recommandé de :

- Connaître les base du langage Python (ou apprendre rapidement via ce cours en ligne Python Introduction (https://developers.google.com/edu/python/introduction))

- Être sensibilisé au traitement de la donnée avec Pig, Hive, MapReduce Java ou Cascading/Scalding

Aucune connaissance préalable en traitement distribué et Apache Spark n’est demandée. C’est un atelier introductoire.

Comment me préparer pour cet atelier ?

Vous devez être muni d’un ordinateur portable relativement moderne et avec minimum 4 Go de mémoire.

Suivre ce Guide de préparation (https://goo.gl/pUz9Jv) (https://goo.gl/pUz9Jv) pour l'installer les outils nécessaires à l'atelier.

Bio: Leonardo est data scientist chez OVH Toulouse. Auparavant, il était consultant indépendant en data science. Avec une forte sensibilité business, il fait rencontrer besoins métiers avec les méthodes de valorisation de données massives. Leonardo est diplômé en science de l’informatique avec une spécialisation en Intelligence Artificielle Neuronale. Enfin, mais pas moins important, il est co-organisateur de ce super groupe ;-)

Agenda:

- 18:30 - Accueil de participants, préparation des ordinateurs et collation pour prendre des forces ;-)

- 19:00 - Démarrage atelier

- 20:45 - Conclusion

Un grand merci à notre sponsor Dexstr (http://www.dexstr.io/) qui nous aider à diffuser la data science auprès de tous les data passionnés !

Empower your biopharmaceutical R&D with translational science software

Un merci aussi à :

O'Reilly Media (http://www.oreilly.com/pub/cpc/1161), qui offre des e-books et remises pour les conférences data science aux membres du TDS ;-)

O'Reilly's Cyber Monday Sale - Data (http://www.oreilly.com/pub/cpc/2552): You don’t want to miss these deals on now through Monday.

La Cantine (http://lacantine-toulouse.org/) qui nous accueille aimablement dans leur locaux !

-------------------------------------------------------------------------

Les meetups peuvent être filmés et le public photographié au long de l'événement. En participant à ces rencontres vous autorisez la publication des photos sur notre site Toulouse Data Science Meetup. Cette autorisation n'inclut pas une utilisation publicitaire d'image.

------------------------------------------------------------------------