Apache Spark - Introduction - replay

Name: Apache Spark - Introduction - replay
Start: 2015-10-20T18:00:00+02:00
End: 2015-10-20T20:00:00+02:00
Location: GFT Sp. z o.o. (wcześniej Rule Financial)

Hosted By

PawelWlodarski

Details

Ponieważ przy pierwszym warsztacie było kilkanaście osób an waitliście to zobaczmy czy będzie wystarczające zainteresowanie by powtórzyć spotkanie.

W porównaniu z pierwszą edycją przygotowałem an wstęp kilka slajdów aby lepiej wytłumaczyć skąd ten spark się wziął i gdzie on się znajduje w relacji z hadoopem.

Plan ćwiczeń jest tutaj : https://pawelwlodarski.gitbooks.io/workshops/content/spark_intro.html

Niech kazdy ściągnie sobie sparka 1.4.1 lub najnowszy 1.5.0 ze strony http://spark.apache.org/downloads.html

Przy pierwsze edycji ludzie w windowsami mieli problemy z wersją 1.5 . Na pierwszych zajęciach nic spektakularnego nie robimy także spokojnie może być 1.4

Rozpakujcie, uruchomcie spark-shell i hello world na szybko zróbcie by sprawdzic czy instalka dziala poprawnie

Poniżej przepis dla windowsa, który przy okazji pierwszych warsztatów opracował Bartosz Bilicki:

"na windows niestety nie udało mi sie uruchmic sparka 1.5.0.
błąd /tmp/hive on HDFS should be writable, rozwiązania brak, workaround to wrócic do 1.4.1-bin-hadoop2
https://www.mail-archive.com/issues@spark.apache.org/msg67954.html

poza tym trzeba:

sciągnąc winutils np. z
https://github.com/spring-projects/spring-hadoop/wiki/Using-a-Windows-client-together-with-a-Linux-cluster
(link bezposredni http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe )
wgrac do C:\win32app\dev\spark\spark-1.4.1-bin-hadoop2.6\bin (wazne zeby było bin na koncu)
ustawic zmienne (tu nie moze byc bin na koncu)
SET HADOOP_CONF=C:\win32app\dev\spark\spark-1.5.0-bin-hadoop2.6
SET HADOOP_CONF_DIR=C:\win32app\dev\spark\spark-1.5.0-bin-hadoop2.6
SET HADOOP_HOME=C:\win32app\dev\spark\spark-1.5.0-bin-hadoop2.6"

--------------------------

A już w przygotowaniu mam kolejną część : https://pawelwlodarski.gitbooks.io/workshops/content/spark_-_more_advanced_operations.html

Tuesday, October 20, 2015
6:00 PM to 8:00 PM CEST

GFT Sp. z o.o. (wcześniej Rule Financial)

Sterlinga 8a · Łódź

Java User Group Łódź

public group

Apache Spark - Introduction - replay