Apache Spark - Dataframes - czyli "pre DataScience"


Szczegóły
Poznamy niezwykle potężny mechanizm badania danych, który udostępnia Apache Spark. Zobaczymy, że Dataframes upraszczają wiele operacji, do tego zobaczymy na przykładzie jak Spark działa w szerszym kontekście ekosystemu Hadoopa, oraz zerkniemy na język R z którego zostały zapożyczone DataFrames. I też kilka ciekawostek z Programowania Funkcyjnego będzie.
Opis cwiczeń --> https://pawelwlodarski.gitbooks.io/workshops/content/spark_dataframes.html
Partnerem spotkania jest Business Link, który użyczył salki za darmo (Czyli jednak Mikołaj czyta listy!)
Agenda :
• Zobaczymy czym różni się Dataframe od RDD na przykladzie zliczania słów
• Tam też zapoznamy się z tworzeniem customowych funkcji i zoabcyzmy jak kompozycja funkcji działa w kontekście DataFrame
• Na przykladzie rzeczywistego zbioru danych z premier league policzymy sobei trochę statystyk z rozgrywek
• Pojdziemy troche dalej niz Dataframe i potestujemy Spark SQL.
• Potrenujemy Sparka w kontekście ekosystemu Hadoopa czytając dane z Hive.
• I w końcu obadamy SparkR i język R z którego koncepcja Dataframe została zaczerpnięta.
Minimum trzeba mieć Sparka na kompie. Idealnie Sparka 1.5.x ale z tego co wiem na windowsie 1.5 nie działa. Na Sparku 1.4 kod powinien być podobny (nie am chyba funkcji "lower") ALE...
Raz, ze może już Spark 1.6 wyjdzie do tego czasu.
Dwa to sprobojcie sobei sciągnąć obraz Quick Start z Cloudery :
http://www.cloudera.com/content/www/en-us/downloads/quickstart_vms/5-5.html
Bo to się przyda do ćwiczenia z Hive.
Do tego dla chętnych do zainstalowania język R bo wtedy działa SparkR.
w razie pytań walcie śmiało.

Apache Spark - Dataframes - czyli "pre DataScience"