Introduction a Spark dataframes en douceur - F. Garillot

Name: Introduction a Spark dataframes en douceur - F. Garillot
Start: 2015-06-22T19:00:00+02:00
End: 2015-06-22T22:00:00+02:00
Location: Norsys, 2eme étage

Hosted by Jean H.

Scala Lyon User Group

Details

Apache Spark est un outil de dernière génération pour le calcul distribué qui apporte des améliorations dramatiques par rapport à Hadoop ou MapReduce. Mais est-il difficile de maîtriser son modèle d'exécution, sa programmation ?

Spark 1.4 introduit les DataFrames, une structure de données de tables étiquetées, similaire à celles de Python ou R, qui aide les analystes à ingérer et manipuler les données aisément. Mais plus qu'une structure de données, cet apport inclut une API de programmation efficace. Le but de cette session pratique est d'explorer comment les DataFrames optimisent les opérations et les transformations spécifiées par l'analyste.

À l'aide d'un exemple suivi, nous démontrerons l'usage des DataFrames, et nous observerons comment la précédente structure de données essentielle de Spark – une collection distribuée appelée Resilient Distributed Dataset – se voit reléguée aux opérations primitives ("bytecode"). Nous montrerons ce que l'arrivée des DataFrames change pour les optimisations de l'exécution sous Spark, incluant les commandes par partition, le filtrage en amont, et le 'shuffling' parcimonieux. L'assistance reviendra de cette démo avec un sens de combien il est facile de manipuler et de calculer sur des données rapidement avec une plate-forme distribuée moderne.

Scala Lyon User Group

Introduction a Spark dataframes en douceur - F. Garillot

Scala Lyon User Group

Details

Related topics

You may also like