Past Meetup

meet(R) in TriCity #5 - warsztaty sparklyr

Location image of event venue

Details

sparklyr: Interfejs pakietu R do algorytmów uczenia maszynowego z Apache Spark ze składnią dplyr

Opis: Apache Spark to szybki i ogólny silnik do przetwarzania dużych danych (http://spark.apache.org (http://spark.apache.org/)). W obecnych zmaganiach świata z przetwarzaniem oceanów danych, Spark jest potężną maszyną obliczeniową uzbrojoną w arsenał algorytmów uczenia maszynowego. Powstaje wiele narzędzi, dzięki którym użytkownicy różnych języków są w stanie integrować się z Apache Spark i jego bibliotekami. Podczas warsztatu przedstawię sparklyr ( http://spark.rstudio.com/ ), pakiet do R (autorstwa RStudio), za pośrednictwem którego możliwe jest kontrolowanie aplikacji sparkowych uruchamianych lokalnie bądź na klastrze obliczeniowym (EC2, Hadoop, YARN). Takie połączenie z R sprawia, że możliwe jest, bezpośrednio z RStudio, korzystanie z biblioteki Sparka zawierającej algorytmy uczenia maszynowego. Gdy do tego dołożyć możliwość używania składni dplyr'a ( http://dplyr.tidyverse.org/ ), najczęściej pobieranego pakietu do R (3.6 mln pobrań w sumie, dane na 11 kwietnia), to otrzymujemy niezniszczalne narzędzie do pracy z danymi wielkiej skali, idealne dla osób, które na co dzień używają pakiet R do analizy danych.

Plan warsztatu:

Warsztat przewidziany jest na 2*2h z jedną przerwą (30 minut).

10:00 - 10:30 prezentacja przekrojowa, w ramach której streszczę czym jest Spark, czym jest biblioteka Spark ML, dogłębnie omówię pakiet dplyr oraz przedstawię przykład użycia sparklyr - uwaga: przewidziane są ćwiczenia ruchowe, takie jak: podnoszenie rąk podczas spontanicznych ankiet

10:30 - 10:40 przegląd zmian w dplyr z wersji 0.5.0 do 0.6.0 [ta wersja wychodzi na 2 dni przed warsztatem] (niepotrzebna jest już parametryzacja wywołań Non-Standard Evaluation + wsparcie dplyr do baz danych zostało przeniesione do pakietu dbplyr https://www.r-bloggers.com/dplyr-0-6-0-coming-soon/ )

10:30 - 11:15 prace w grupach z dplyr (przewidziane zadania łatwe, trudne, z gwiazdką i z krzyżem)

11:15 - 11:45 podstawowe prace w grupach ze sparklyr: uruchomienie Spark, przykładowe wywołania jego biblioteki do uczenia maszynowego

11:45 - 12:00 omówienie danych dotyczących artykułów pobranych z portali internetowych przez Krzysztofa Słomczyńskiego ( https://www.meetup.com/Trojmiejska-Grupa-Entuzjastow-R/events/236257032/ ), na których pracować będziemy w drugiej części warsztatu

12:00 - 12:30 przerwa, podczas której liczyć można na ugruntowanie wiedzy i burzę mózgów na temat tego co można z rozważanymi danymi zrobić oraz pizza :)

12:30 - 14:00 praca w grupach z danymi dotyczącymi artykułów przy wykorzystaniu sparklyr - proponowana forma pracy: przygotowanie dokumentu .Rmd z kodami i komentarzami do późniejszego zaprezentowania na spotkaniu i do umieszczenia w internecie po spotkaniu. Proponowane problemy do rozważenia: 1) analiza tekstu z modelem LDA i pakietem LDAvis, 2) problem klasyfikacji artykułów ze względu na oryginalny portal, z którego pochodzą 3) segmentacja artykułów przy użyciu algorytmów do klastrowania, 4) analiza PCA dla artykułów

14:00 - 14:30 prezentacja wyników grup

Przed spotkaniem można, ale nie trzeba, przyswoić trochę wiedzy na temat sparklyr:
i) http://r-addict.com/2016/08/25/Extending-Sparklyr.html
ii) http://r-addict.com/DataScienceWarsaw25/show/#/
iii) http://spark.rstudio.com/

Warsztat przewidziany jest dla osób, które samodzielnie potrafią:
- zainstalować R na swojej maszynie i systemie operacyjnym i upewnić się, że jest w najnowszej wersji
- zainstalować RStudio na swojej maszynie i systemie operacyjnym
- instalować pakiety do R z CRAN - przydadzą się: sparklyr i dplyr
- instalować pakiety do R z GitHub'a

Potrzebne kody i materiały oraz prezentację umieszczane będę pod tym adresem

https://github.com/MarcinKosinski/trigeR5

Warsztaty poprowadzi Marcin Kosiński , który jest wiernym entuzjastą pakietu statystycznego R. Wykorzystuje go na co dzień przy tworzeniu oprogramowania Open Source oraz w obszarze spersonalizowanej rekomendacji artykułów w czasie rzeczywistym na portalu wp.pl (http://wp.pl/), w ramach stanowiska Data Scientist w Grupie Wirtualna Polska, gdzie pracował (do marca 2017) przez 30 miesięcy. Od początku 2017 freelancer ( http://r-addict.com/ ), organizator Warszawskich Spotkań Entuzjastów R oraz główny organizator ogólnopolskiej konferencji użytkowników R - Why R? 2017 (27-29 września, Warszawa). Z wykształcenia absolwent Statystyki Matematycznej i Analizy Danych na Politechnice Warszawskiej. Uzbrojony w niepohamowany optymizm, wraz z pomocą narzędzi do analizy danych kreuje pomysły na nowe ich zastosowania.

Uważa, że zbyt długie okresy spędzone na tworzeniu rozwiązań Business Intelligence mogą zdusić ducha kreatywności na polu Data Science, dlatego wszystkim przypomina o regularnym zażywaniu odpoczynku.