Apache Spark - Dataframes - czyli "pre DataScience"

Name: Apache Spark - Dataframes - czyli "pre DataScience"
Start: 2015-12-14T18:00:00+01:00
End: 2015-12-14T20:00:00+01:00
Location: Business Link Łódź

Gospodarz: PawelWlodarski

Java User Group Łódź

Szczegóły

Poznamy niezwykle potężny mechanizm badania danych, który udostępnia Apache Spark. Zobaczymy, że Dataframes upraszczają wiele operacji, do tego zobaczymy na przykładzie jak Spark działa w szerszym kontekście ekosystemu Hadoopa, oraz zerkniemy na język R z którego zostały zapożyczone DataFrames. I też kilka ciekawostek z Programowania Funkcyjnego będzie.

Opis cwiczeń --> https://pawelwlodarski.gitbooks.io/workshops/content/spark_dataframes.html

Partnerem spotkania jest Business Link, który użyczył salki za darmo (Czyli jednak Mikołaj czyta listy!)

Agenda :

• Zobaczymy czym różni się Dataframe od RDD na przykladzie zliczania słów

• Tam też zapoznamy się z tworzeniem customowych funkcji i zoabcyzmy jak kompozycja funkcji działa w kontekście DataFrame

• Na przykladzie rzeczywistego zbioru danych z premier league policzymy sobei trochę statystyk z rozgrywek

• Pojdziemy troche dalej niz Dataframe i potestujemy Spark SQL.

• Potrenujemy Sparka w kontekście ekosystemu Hadoopa czytając dane z Hive.

• I w końcu obadamy SparkR i język R z którego koncepcja Dataframe została zaczerpnięta.

Minimum trzeba mieć Sparka na kompie. Idealnie Sparka 1.5.x ale z tego co wiem na windowsie 1.5 nie działa. Na Sparku 1.4 kod powinien być podobny (nie am chyba funkcji "lower") ALE...

Raz, ze może już Spark 1.6 wyjdzie do tego czasu.

Dwa to sprobojcie sobei sciągnąć obraz Quick Start z Cloudery :

http://www.cloudera.com/content/www/en-us/downloads/quickstart_vms/5-5.html

Bo to się przyda do ćwiczenia z Hive.

Do tego dla chętnych do zainstalowania język R bo wtedy działa SparkR.

w razie pytań walcie śmiało.

Java User Group Łódź

Apache Spark - Dataframes - czyli "pre DataScience"

Java User Group Łódź

Szczegóły

Pokrewne tematy

Może ci się również spodobać