Politechnika Gdańska

ul. Gabriela Narutowicza 11/12 · Gdansk

How to find us

sala 418 w Gmachu B (IV piętro)

Location image of event venue

Details

Zapraszamy na pierwsze spotkanie Trójmiejskiej Grupy Entuzjastów R :)

Pierwszym prelegentem będzie Michał Maj, który zaprezentuję temat:

Data Scientist w Wirtualnej Polsce

"Wirtualna Polska jest jednym z największych portali internetowych w Polsce. Podczas prezentacji opowiem krótko o tym jak wygląda praca na stanowisku analityka danych w jednym z działów WP zajmującym się scoringiem reklamowym. W kilku zdaniach przedstawię proces scoringu użytkowników portalu: od momentu pojawienia się ich na stronie internetowej, poprzez tworzenie modeli statystycznych, aż po wizualizację wyników. Opowiem także o używanych przeze mnie narzędziach, wśród których jest oczywiście R."

Drugim prelegentem będzie Krzysztof Słomczyński, który jest zagorzałym entuzjastą pakietu R. Na co dzień pracuje przy projektach Open Source takich jak Czas Dojazdu (http://mi2.mini.pw.edu.pl:3838/CzasDojazdu/app/) czy analiza ofert Data Science na portalu pracuj.pl (http://mi2.mini.pw.edu.pl:3838/pracuj/ml/). Uzbrojony w niepohamowany optymizm, wraz z pomocą narzędzi do analizy danych kreuje pomysły na nowe ich zastosowania. W przyszłości pragnie zatrudnić się na dłużej jako Data Scientist. Z pasji muzyk, z wykształcenia inżynier lotnictwa, dostrzega wagę skutecznego podejmowania decyzji na podstawie danych. Zwraca uwagę na najdrobniejsze detale i uparcie dba o jakość danych, zawsze.

RSelenium jako alternatywa dla rvest podczas web-srcapingu

Wraz ze wzmożonym zainteresowaniem internetem i jego rosnącą liczbą użytkowników, można także zaobserwować wzrost zapotrzebowania na analizowanie danych i informacji pozostawionych przez użytkowników i dla użytkowników. Wiele firm i instytucji opiera swoje decyzje biznesowe na szerokich badaniach portali społecznościowych i for internetowych, gdzie użytkownicy zostawiają opinie na temat różnych produktów i marek. Nie tylko sama analiza, ale i umiejętność pozyskania danych z internetu, jest kluczowym elementem tej układanki.
Podczas prezentacji przedstawię podstawowe sposoby pobierania informacji ze stron internetowych przy pomocy pakietu R. Wskażę na problemy i wąskie gardła znanych rozwiązań oraz zwrócę szczególną uwagę na sposoby 'skutecznego' uniemożliwiania pobierania danych. Główną rolę w przedstawieniu zagra Selenium 2.0 Web Driver (https://seleniumhq.github.io/docs/wd.html) i wejście od strony R: pakiet RSelenium. Pokażę jak przy jego pomocy jesteśmy w stanie natywnie używać przeglądarki, tak by przeglądane serwery stron internetowych traktowały nas (zazwyczaj) jak (zalogowanych) użytkowników, a nie jak roboty. Dzięki RSelenium jesteśmy w stanie, między innymi, obejść moment logowania.
Zakłada się, że słuchacze dysponują podstawową wiedzą z zakresu R.