Apache Spark - Introduction - replay


Details
Ponieważ przy pierwszym warsztacie było kilkanaście osób an waitliście to zobaczmy czy będzie wystarczające zainteresowanie by powtórzyć spotkanie.
W porównaniu z pierwszą edycją przygotowałem an wstęp kilka slajdów aby lepiej wytłumaczyć skąd ten spark się wziął i gdzie on się znajduje w relacji z hadoopem.
Plan ćwiczeń jest tutaj : https://pawelwlodarski.gitbooks.io/workshops/content/spark_intro.html
Niech kazdy ściągnie sobie sparka 1.4.1 lub najnowszy 1.5.0 ze strony http://spark.apache.org/downloads.html
Przy pierwsze edycji ludzie w windowsami mieli problemy z wersją 1.5 . Na pierwszych zajęciach nic spektakularnego nie robimy także spokojnie może być 1.4
Rozpakujcie, uruchomcie spark-shell i hello world na szybko zróbcie by sprawdzic czy instalka dziala poprawnie
Poniżej przepis dla windowsa, który przy okazji pierwszych warsztatów opracował Bartosz Bilicki:
"na windows niestety nie udało mi sie uruchmic sparka 1.5.0.
błąd /tmp/hive on HDFS should be writable, rozwiązania brak, workaround to wrócic do 1.4.1-bin-hadoop2
https://www.mail-archive.com/issues@spark.apache.org/msg67954.html
poza tym trzeba:
-
sciągnąc winutils np. z
https://github.com/spring-projects/spring-hadoop/wiki/Using-a-Windows-client-together-with-a-Linux-cluster
(link bezposredni http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe ) -
wgrac do C:\win32app\dev\spark\spark-1.4.1-bin-hadoop2.6\bin (wazne zeby było bin na koncu)
-
ustawic zmienne (tu nie moze byc bin na koncu)
SET HADOOP_CONF=C:\win32app\dev\spark\spark-1.5.0-bin-hadoop2.6
SET HADOOP_CONF_DIR=C:\win32app\dev\spark\spark-1.5.0-bin-hadoop2.6
SET HADOOP_HOME=C:\win32app\dev\spark\spark-1.5.0-bin-hadoop2.6"
--------------------------
A już w przygotowaniu mam kolejną część : https://pawelwlodarski.gitbooks.io/workshops/content/spark_-_more_advanced_operations.html

Apache Spark - Introduction - replay