Skip to content

Introduction a Spark dataframes en douceur - F. Garillot

Photo of Jean Helou
Hosted By
Jean H.
Introduction a Spark dataframes en douceur - F. Garillot

Details

Apache Spark est un outil de dernière génération pour le calcul distribué qui apporte des améliorations dramatiques par rapport à Hadoop ou MapReduce. Mais est-il difficile de maîtriser son modèle d'exécution, sa programmation ?

Spark 1.4 introduit les DataFrames, une structure de données de tables étiquetées, similaire à celles de Python ou R, qui aide les analystes à ingérer et manipuler les données aisément. Mais plus qu'une structure de données, cet apport inclut une API de programmation efficace. Le but de cette session pratique est d'explorer comment les DataFrames optimisent les opérations et les transformations spécifiées par l'analyste.

À l'aide d'un exemple suivi, nous démontrerons l'usage des DataFrames, et nous observerons comment la précédente structure de données essentielle de Spark – une collection distribuée appelée Resilient Distributed Dataset – se voit reléguée aux opérations primitives ("bytecode"). Nous montrerons ce que l'arrivée des DataFrames change pour les optimisations de l'exécution sous Spark, incluant les commandes par partition, le filtrage en amont, et le 'shuffling' parcimonieux. L'assistance reviendra de cette démo avec un sens de combien il est facile de manipuler et de calculer sur des données rapidement avec une plate-forme distribuée moderne.

Photo of Scala Lyon User Group group
Scala Lyon User Group
See more events
59 Rue Abondance, 69003 Lyon. · Lyon