Data NoBlaBla Bis: Data Munging avec Spark - Partie II

This is a past event

15 people went

Location visible to members

Details

Cet atelier est une version de rattrapage pour ceux qui n’ont pas pu venir à la première édition du Data NoBlaBla "Data Munging avec Spark - Partie II"

Attention : vous devez entrer le code d'invitation lors de votre réponse. Dans le cas contraire, la validation de votre inscription n'est pas assurée.

Dans l’atelier précédent, nous avons vu comment Spark fait partie intégrante dans le kit de ménage du data scientist moderne. Les bases de Spark et son API (PySpark) ont été abordées. Nous avons vu que le concept de RDDs est assez flexible et puissant pour travailler la donnée de tout type à l’aide d’une multitude de transformations et d’actions proposées.

Mais, nous savons bien que pour commencer à faire une analyse exploratoire et utiliser les méthodes de machine learning il faut d’abord structurer correctement sa donnée. C’est ce que nous aborderons dans cette deuxième partie de l’atelier. Voici le programme :

• Charger et enregistrer des données volumineuses au format CSV sans souffrance

• Utiliser l’API DataFrame pour faire une analyse exploratoire simple

• Analyser la donnée via SQL avec SparkSQL (et oui, le bon et vieux SQL a toujours la côte)

• Utiliser les tableaux croisés dynamiques

• Utiliser Parquet, un format de stockage performant et structuré de plus en plus utilisé en entreprise

Cette atelier sera animé Alexia Audevart, data enthousiaste chez ekito et Julien Guillaumin, stagiaire en traitement d'images chez Thales Services.

Quels sont les pré-requis ?

Pour mieux profiter de cet atelier il est fort recommandé de :

• Connaître les base du langage Python (ou apprendre rapidement via ce cours en ligne Python Introduction (https://developers.google.com/edu/python/introduction))

• Être sensibilisé au traitement de la donnée avec Pig, Hive, MapReduce Java ou Cascading/Scalding

• Avoir participé à l’atelier précédent ou être à l’aise avec les concepts de base de Spark: driver, executors, partitions, RDDs, transformations (map, flatMap, filter, reduceByKey), actions (collect, take, count, takeOrdered)

Comment me préparer pour cet atelier ?

Vous devez être muni d’un ordinateur portable relativement récent et avec un navigateur internet (de préférence Chrome ou Firefox). Vous devez pouvoir vous connecter à Internet via le Wifi.

Un espace online (Jupyter Notebook) sera fournit à chaque participant afin de suivre les exercices. Aucune installation n'est donc nécessaire. Toutefois, ceux qui souhaitent, peuvent installer Docker sur leur machine et télécharger l’image de l’atelier ici: https://hub.docker.com/r/noleto/pyspark-jupyter/ - Installation sur Windows déconseillée.

Les supports (exercices et données à nettoyer) seront fournis avant l’atelier aux participants inscrits.

Agenda:

- 18:30 - Accueil de participants, préparation des ordinateurs et collation

- 19:00 - Démarrage atelier

- 21:00 - Conclusion

Un grand merci à nos sponsors :

Un merci tout spécial à Etincelle Coworking (http://www.coworking-toulouse.com/) qui nous accueille aimablement dans leur locaux !

------------------------------------------------------------------

Les meetups peuvent être filmés et le public photographié au long de l'événement. En participant à ces rencontres vous autorisez la publication des photos sur notre site Toulouse Data Science Meetup. Cette autorisation n'inclut pas une utilisation publicitaire d'image.

------------------------------------------------------------------