Data NoBlaBla: Data Munging avec Spark - Partie II

This is a past event

18 people went

Location visible to members

Details

Attention: Vous êtes sur la séance de samedi matin !

Dans l’atelier précédent, nous avons vu comment Spark fait partie intégrante dans le kit de ménage du data scientist moderne. Les bases de Spark et son API (PySpark) ont été abordées. Nous avons vu que le concept de RDDs est assez flexible et puissant pour travailler la donnée de tout type à l’aide d’une multitude de transformations et d’actions proposées.

Mais, nous savons bien que pour commencer à faire une analyse exploratoire et utiliser les méthodes de machine learning il faut d’abord structurer correctement sa donnée. C’est ce que nous aborderons dans cette deuxième partie de l’atelier. Voici le programme :

• Charger et enregistrer des données volumineuses au format CSV sans souffrance

• Utiliser l’API DataFrame pour faire une analyse exploratoire simple

• Analyser la donnée via SQL avec SparkSQL (et oui, le bon et vieux SQL a toujours la côte)

• Utiliser les tableaux croisés dynamique

• Utiliser Parquet, un format de stockage performant et structuré de plus en plus utilisé en entreprise

Cette atelier sera animé par Leonardo Noleto, data scientist chez OVH.

Quels sont les pré-requis ?

Pour mieux profiter de cet atelier il est fort recommandé de :

• Connaître les base du langage Python (ou apprendre rapidement via ce cours en ligne Python Introduction (https://developers.google.com/edu/python/introduction))

• Être sensibilisé au traitement de la donnée avec Pig, Hive, MapReduce Java ou Cascading/Scalding

• Avoir participé à l’atelier précédent ou être à l’aise avec les concepts de base de Spark: driver, executors, partitions, RDDs, transformations (map, flatMap, filter, reduceByKey), actions (collect, take, count, takeOrdered)

Comment me préparer pour cet atelier ?

Vous devez être muni d’un ordinateur portable relativement récent et avec un navigateur internet (de préférence Chrome ou Firefox). Vous devez pouvoir vous connecter à Internet via le Wifi.

Un espace online (Jupyter Notebook) sera fournit à chaque participant afin de suivre les exercices. Aucune installation n'est donc nécessaire. Toutefois, ceux qui souhaitent, peuvent installer Docker sur leur machine et télécharger l’image de l’atelier ici: https://hub.docker.com/r/noleto/pyspark-jupyter/

Les supports (exercices et données à nettoyer) seront fournis avant l’atelier aux participants inscrits.

Agenda:

- 10:00 - Accueil de participants, préparation des ordinateurs et petit déj'

- 10:30 - Démarrage atelier

- 12:30 - Conclusion

Bio: Leonardo est data scientist chez OVH Toulouse. Auparavant, il était consultant indépendant en data science. Avec une forte sensibilité business, il fait rencontrer besoins métiers avec les méthodes de valorisation de données massives. Leonardo est diplômé en science de l’informatique avec une spécialisation en Intelligence Artificielle Neuronale. Enfin, mais pas moins important, il est co-organisateur de ce super groupe ;-)

Un grand merci à notre sponsor Dexstr (http://www.dexstr.io/) qui nous aider à diffuser la data science auprès de tous les data passionnés !

Empower your biopharmaceutical R&D with translational science software

Un spécial merci à Etincelle Coworking (http://www.coworking-toulouse.com/) qui nous accueille aimablement dans leur nouevaux locaux aux Carmes !

-----------------------------------------------------------------------

Les meetups peuvent être filmés et le public photographié au long de l'événement. En participant à ces rencontres vous autorisez la publication des photos sur notre site Toulouse Data Science Meetup. Cette autorisation n'inclut pas une utilisation publicitaire d'image.

----------------------------------------------------------------------