Past Meetup

Apache Spark - Introduction - replay

This Meetup is past

25 people went

Details

Ponieważ przy pierwszym warsztacie było kilkanaście osób an waitliście to zobaczmy czy będzie wystarczające zainteresowanie by powtórzyć spotkanie.

W porównaniu z pierwszą edycją przygotowałem an wstęp kilka slajdów aby lepiej wytłumaczyć skąd ten spark się wziął i gdzie on się znajduje w relacji z hadoopem.

Plan ćwiczeń jest tutaj : https://pawelwlodarski.gitbooks.io/workshops/content/spark_intro.html

Niech kazdy ściągnie sobie sparka 1.4.1 lub najnowszy 1.5.0 ze strony http://spark.apache.org/downloads.html

Przy pierwsze edycji ludzie w windowsami mieli problemy z wersją 1.5 . Na pierwszych zajęciach nic spektakularnego nie robimy także spokojnie może być 1.4

Rozpakujcie, uruchomcie spark-shell i hello world na szybko zróbcie by sprawdzic czy instalka dziala poprawnie

Poniżej przepis dla windowsa, który przy okazji pierwszych warsztatów opracował Bartosz Bilicki:

"na windows niestety nie udało mi sie uruchmic sparka 1.5.0.
błąd /tmp/hive on HDFS should be writable, rozwiązania brak, workaround to wrócic do 1.4.1-bin-hadoop2
https://www.mail-archive.com/issues@spark.apache.org/msg67954.html

poza tym trzeba:

1. sciągnąc winutils np. z
https://github.com/spring-projects/spring-hadoop/wiki/Using-a-Windows-client-together-with-a-Linux-cluster
(link bezposredni http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe )
2. wgrac do C:\win32app\dev\spark\spark-1.4.1-bin-hadoop2.6\bin (wazne zeby było bin na koncu)

3. ustawic zmienne (tu nie moze byc bin na koncu)
SET HADOOP_CONF=C:\win32app\dev\spark\spark-1.5.0-bin-hadoop2.6
SET HADOOP_CONF_DIR=C:\win32app\dev\spark\spark-1.5.0-bin-hadoop2.6
SET HADOOP_HOME=C:\win32app\dev\spark\spark-1.5.0-bin-hadoop2.6"

--------------------------

A już w przygotowaniu mam kolejną część : https://pawelwlodarski.gitbooks.io/workshops/content/spark_-_more_advanced_operations.html