• 5th Anniversary of RUG & Perturbation based explanations of ML predictions

    Sala 107 Wydziału Matematyki i Nauk Informacyjnych Politechniki Warszawskiej

    The first meeting took place on 27 February 2014 at the ICM UW. Since then, our R community has grown a lot! We would like to celebrate the 5th anniversary together. We will start with a talk by Professor Marko Robnik-Šikonja about local explanations of machine learning models. Plan: 18:00-18:05 - Welcome 18:05 - 18:45 - Perturbation based explanations of ML predictions - Marko Robnik-Šikonja 18:45-... - Celebration with cake Abstract: Current research into algorithmic explanation methods for predictive models can be divided into two main approaches: gradient-based approaches limited to neural networks, and more general perturbation-based approaches which can be used with arbitrary prediction models. We present an overview of perturbation-based approaches, with focus on popular methods (EXPLAIN, IME, LIME, SHAP). These methods support explanation of individual predictions but can also visualize the model as a whole. We describe their working principles, how they handle computational complexity, their visualizations as well as their advantages and disadvantages. We illustrate issues and challenges in applying the explanation methodology on practical use cases. Biography: Marko Robnik-Šikonja is Professor of Computer Science and Informatics and Head of Artificial Intelligence Chair at University of Ljubljana, Faculty of Computer and Information Science. His research interests span machine learning, data mining, knowledge discovery in databases, cognitive modelling, natural language processing and application of data mining techniques. His most notable scientific results concern feature evaluation, ensemble learning, network analysis, model and prediction explanation, generation of semi-artificial data, and natural language analysis. He is (co)author of more than 100 scientific publications and three open source R data mining packages. After the talk, we will celebrate the 5th anniversary of SER/RUG with a cake. The event will be sponsored by Appsilon. Appsilon delivers the most advanced R Shiny apps, data science consulting services and support with R Shiny and Python Dash technologies. www: https://appsilon.com/ fb: @appsilon.company https://www.facebook.com/appsilon.company/ twitter: @appsilonds https://twitter.com/appsilonds linkedin: https://www.linkedin.com/company/appsilon/

    1
  • February Warsaw R Enthusiasts Meetup

    Politechnika Warszawska, Wydział MINI

    Serdecznie zapraszamy na lutowe Spotkanie Warszawskich Entuzjastów R. *Nastąpiła zmiana w programie spotkania.* Niestety, zaplanowani prelegenci nie mogą wystąpić, dlatego zmieniła się tematyka meetupu. Meetup odbędzie się w sali 107. Plan: 18:00-18:05 - Powitanie 18:05 - 18:45 - Wszechstronność R na przykładzie h2o i worklplannera - Michał Wojtasiewicz 18:45-19:15 Pizza break sponsored by Appsilon 19:15-19:55 - Wyjaśnij, albo Cię pozwę! - Przemysław Biecek 19:55-20:00 - Kilka słów od Appsilon Afterparty Abstrakt Michała: 1. H2O w R – prezentacja przedstawia proces powstawania rozwiązań ML według metodyki CRISP wraz z wyróżnieniem korzyści wynikających z użycia środowiska h2o. Uczestnicy będą mieli możliwość zapoznania się z rzeczywistą procedurą budowy modeli predykcyjnych oraz praktycznym przykładem uruchomienia pakietu h2o z poziomu R. 2. Workplanner – prezentacja przedstawia zastosowanie pakietu shiny do budowy aplikacji układającej harmonogram prac w oparciu o algorytm genetyczny. Uczestnicy będą mogli zapoznać się z procesem powstawania rozwiązania będącego odpowiedzią na trudności w układaniau grafików pracowników jednej z popularnych sieci kawiarni w Warszawie. Abstrakt Przemka: Panoptykon poinformował w lutym, że przekonał rząd do zmian w prawie bankowym. W miejsce ,,czarnej skrzynki’’, która wypluwa niezrozumiałe decyzje bez uzasadnienia, mają pojawić się zrozumiałe wyjaśnienia. Ale jak konstruować te wyjaśnienia? Podczas referatu opowiem o nowym narzędziu Break Down 2, które dla dowolnej czarnej skrzynki konstruuje wyjaśniane atrybucje. Pokażę jak je wyznaczać, jak uwzględniać interakcje pomiędzy zmiennymi. Dodatkowo pokażę jak wykorzystać pakiet r2d3 aby zwiększyć interaktywność wyjaśnień. Dzięki uprzejmości firmy Appsilon meetup zostanie nagrany i udostępniony na YouTube. Appsilon delivers the most advanced R Shiny apps, data science consulting services and support with R Shiny and Python Dash technologies. www: https://appsilon.com/ fb: @appsilon.company https://www.facebook.com/appsilon.company/ twitter: @appsilonds https://twitter.com/appsilonds linkedin: https://www.linkedin.com/company/appsilon/

    3
  • December'18 Warsaw R Enthusiasts

    Sala 107 Wydziału Matematyki i Nauk Informacyjnych Politechniki Warszawskiej

    On our next meetup, 6th Dec 18:00, we will have a chance to listen to Dr Rafael de Andrade Moral and Filip Cyprowski. Dr Rafael de Andrade Moral Bio I am a Lecturer in Statistics at Maynooth University, Ireland. I graduated in Biology and then obtained an MSc and a PhD in Statistics from University of São Paulo, Brazil. My research interests include the development and application of statistical modelling techniques to Biology and Agriculture, more specifically in relation to Animal Ecology. I am also interested in the computational implementation of statistical models, especially in the form of R code. Title Diagnostic Plots for Univariate and Bivariate Models (and Joint Models in Ecology) Abstract When using univariate models, goodness-of-fit can be assessed through many different methods, including graphical tools such as half-normal plots with a simulation envelope. This is straightforward due to the notion of ordering of a univariate sample, which can readily reveal possible outliers. In the bivariate case, however, it is often difficult to detect extreme points and verify whether a sample of residuals is a reasonable realisation from a fitted model. We propose a new framework, implemented as the bivrp R package, available on the Comprehensive R Archive Network. Our framework uses the same principles of the simulation envelope in a half-normal plot, but as a simulation polygon for each point in a bivariate sample. By using algorithms of convex hull construction and polygon area reduction, we describe how our method works and illustrate its functionality with examples using simulated bivariate normal data and real bivariate count data on animal ecology. We show how different model diagnostics can produce different results and pinpoint potential drawbacks of our approach, such as the limitations in terms of computational burden and convex hull bias. Filip Cyprowski Bio Od 8 lat związany z analizą danych i tworzeniem aplikacji analitycznych. Przez długi czas przewodniczył teamowi data science w Sotrender, obecnie buduje zespół w Lingaro w skład którego wchodzą deweloperzy piszący w różnych językach i technologiach. Od trzech lat doświadczenia na tym polu stara się przekazać studentom kierunku Data Science na Politechnice Białostockiej. Prywatnie wielki fan Scali, Google Cloud Platform i strasznych filmów. Title "That's a bad idea": R in production environment Abstract R powstał w środowisku statystyków i miał zastąpić raczej rozpowszechnione w środowisku analityków oprogramowanie do analizy danych (SAS, SPSS itd.), nie języki programowania służące do budowania złożonych aplikacji webowych. Nic dziwnego, że wśród deweloperów pomysły budowania w R rozwiązań produkcyjnych budzą - w najlepszym przypadku - zdziwienie. Prezentacja udowodni, że R nie tylko sprawdzi się jako język backendu, ale też że - zwłaszcza w aplikacjach zależnych od dużych zbiorów danych - może być językiem pierwszego wyboru. Tagi: software engineering, docker, test driven development, microservices, SOA

    1
  • Październikowe SERy

    Sala 329 Wydział MINI PW

    SERy wracają po wakacjach z dwoma super prelekcjami: Alicja Gosiewska opowie o pakiecie auditor do diagnostyki Black Boxów, a Damian Rodziewicz o analizie danych satelitarnych w R. Agenda: 18:00 - 18:05 Powitanie 18:05 - 18:35 Prezentacja Alicji i pytania 18:35 - 19:05 - Pizza 19:05 - 19:35 Prezentacja Damiana Afterparty w pobliskim pubie. Spotkanie sponsoruje firma Appsilon. Bio's: Alicja jest doktorantką na Wydziale Matematyki i Nauk Informacyjnych Politechniki Warszawskiej. Ukończyła matematykę na Wydziale MIM UW oraz Statystykę Matematyczną i Analizę Danych na Wydziale MiNI PW. Obecnie zajmuje się zagadnieniami diagnostyki modeli uczenia maszynowego oraz xAI (wyjaśnialną sztuczną inteligencją). Działa w organizacji R-Ladies, gdzie prowadzi szkolenia z programowania w języku R. Współorganizuje również Konferencję WhyR?. Damian uważa się za maniaka technologii, co jest trafne, biorąc pod uwagę, że jest współzałożycielem i głównym architektem w Appsilonie. Ma tytuł magistra informatyki MIM UW oraz ukończył studia podyplomowe z zakresu prawa menedżerskiego. Przed założeniem Appsilon pracował w Accenture, UBS, Microsoft i Domino Data Lab. Jest zagorzałym pływakiem i amatorem psychologii. Abstrakty: **Pakiet auditor** Uczenie maszynowe z powodzeniem znajduje zastosowanie w różnych obszarach nauki oraz biznesu. Odgrywa ono istotną rolę w biologii, medycynie, fizyce, finansach oraz wielu innych dziedzinach. Jednakże, poważny problem stanowią modele, które zawodzą w konfrontacji z rzeczywistymi danymi. Dlatego też, tak ważna jest ich wcześniejsza walidacja. Podczas prezentacji opowiem o pakiecie auditor, który służy do diagnostyki dowolnych modeli predykcyjnych. Pakiet umożliwia, między innymi, identyfikację wartości odstających i obserwacji wpływowych. Ponadto, ułatwia ocenę dokładności oraz jakości dopasowania modelu. Może być wykorzystany również do analizy podobieństwa reszt. Walidacja przeprowadzana jest na podstawie statystyk diagnostycznych oraz oceny wizualnej. **Using deep learning on Satellite imagery to get a business edge** Deep learning daje nowe możliwości analizy zdjęć satalitarnych. Dane satelitarne pozwalają dotrzeć do informacji niedostępnych w biznesie i podróżować w czasie. W połączeniu z zaawansowanymi technikami deep learningu dostarczają wnioski, które nie były wcześniej dostępne dla człowieka, ze względu na rozmiar i nieoczywistość obrazów. Dzięki możliwości powrotu do arbitralnego punktu w czasie możemy zapobiegać oszustwom. Możemy budować prognozy i obserwować zdarzenia, do których nie mielibyśmy dostępu w inny sposób. Zbadamy wiele pojawiających się przypadków użycia danych staleitarnych i ich wspólne cechy. Pokażemy, jak pracujemy z danymi satelitarnymi w R i jak używamy Shiny do budowania systemów wspomagania decyzji dla biznesu.

    6
  • After Why R? beeR

    Politechnika Warszawska, Wydział MINI

    We are gathering to grab a beeR and talk about R initiatives for this and the next year. An excellent occasion to see people you've met at Why R? 2018 conference. #shmoozing

    6
  • RxConsulting

    Sala 328 Wydziału Matematyki i Nauk Informacyjnych Politechniki Warszawskiej

    Przed nami ostatni SER przed wakacjami! Tym razem będziemy gościć prelegentów, którzy zawodowo związanie są z firmą McKinsey i pokażą jakie ciekawe projekty consultingowe można realizować przy wykorzystaniu R. Speakers: Michal Siwek - Data Science Expert and Mateusz Zawisza - Data Science Specialist. Mateusz Zawisza Bio Zdobywał doświadczenia analityczne podczas realizacji projektów w Polsce i zagranicą, w zakresie projektowania i implementacji analitycznych narzędzi wspomagania decyzji, a także rozwoju procesów i kompetencji analitycznych u Klientów z branż: handlu detalicznego i hurtowego, produkcyjnej, telekomunikacyjnej, finansowej, a także sektora publicznego. Absolwent SGH na kierunku Metod Ilościowe w Ekonomii i Systemy Informacyjne oraz Studium Doktoranckiego w Kolegium Analiz Ekonomicznych SGH. Współautor podręcznika "Receptury w R" i ponad 10 publikacji z zakresu ekonomii i zarządzania ilościowego. Od 10 lat prowadzi zajęcia w Szkole Głównej Handlowej w obszarze analityki predykcyjnej i decyzyjnej, ostatnio, jako wykładowca na studiach podyplomowych SGH "Inżynieria danych - Big Data". Presentation title Multidyscyplinarny obraz dzisiejszego data scientisty na przykładzie projektów analitycznych McKinsey&Company Abstract Na przykładzie projektu optymalizacji cen w globalnej sieci detalicznej przedstawione zostaną główne etapy analityczne tego projektu oraz wybrane zagadnienia, których zaadresowanie wymagało łączenia interdyscyplinarnych metod analitycznych. W trakcie prezentacji poruszone będą kwestie związane z m.in. radzeniem z przekleństwem wymiaru, konsekwencjami niewłaściwego modelowania heterogenicznych obiektów, uwarunkowaniami stosowania metod machine learningu i ekonometrii, czy wsparciem decydenta w obliczu sprzecznych celów biznesowych. Michal Siwek Bio Michał jest Ekspertem Data Science w McKinsey Analytics. Ma doświadczenie w zakresie kompleksowych analiz danych w dziedzinie opieki zdrowotnej, biotechnologii, sektora publicznego, bankowości, marketingu oraz produkcji. Przed dołączeniem do McKinsey Michał pracował przez wiele lat w bankowości jako specjalista ds. zarządzania ryzykiem kredytowym. Michał uzyskał tytuł magistra inżyniera informatyki na Politechnice Wrocławskiej i odbył studia doktoranckie w Szkole Głównej Handlowej w Warszawie. Presentation title Eksperymenty analityczne w sprzedaży Abstract Opracowanie strategii wdrożenia rozwiązań analitycznych dla przedsiębiorstwa. Pokazanie wartości danych i sposobu ich użycia przez agentów sprzedaży/ Opracowanie prototypu przyjaznego dla użytkownika narzędzia obejmującego analizy klientów zmniejszających wartość transakcji, zmieniających udział w portfelu i analizy możliwości zwiększania sprzedaży poprzez sprzedaż krzyżową lub dodatkową. Agenda: 18-18:05 Welcome 18:05-18:10 Kilka słów od sponsora firmy McKinsey 18:10 - 18:40 Prezentacja 1 18:40-19:10 Pizza break 19:10-19:40 - Prezentacja 2 After party od 20 w pubie Znajomi Znajomych na Wilczej

    3
  • MaySER

    Sala 329 Wydział MINI PW

    In May we will have 2 great presentations: 1) Krystian Igras from Appsilon Data Science "Data validation understandable for business with assertr package" 2) Patricia Martinkova from Department of Statistical Modelling, Institute of Computer Science of the Czech Academy of Sciences "ShinyItemAnalysis for Psychometric Training and to Enforce Routine Analysis of Educational Tests" Presentations will take around 30 minutes each and we will have pizza break in between. Later we move to the bar near by. Event will be in English. Abstracts: "Data validation understandable for business with assertr package" Nowadays, more and more organizations transform their business using data collected over years. Its analysis can help with making appropriate business decisions. One of the most important stages of such analysis is continuous examination of the data's condition. It turns out that the data validation process should be carried out at many stages of analysis, so we need flexible tool that allows us to perform validation for each one. We decided to choose assertr from many possible packages which outperforms other tools with provided features. I will discuss most of them in my presentation. During the analysis, we learn more about data and related problems. Well-run communication concerning state of the data can result with improvement of data collection processes, its condition, and allow us to continue our work with better results. Nevertheless, it is common for analyses to be carried out in a language incomprehensible to business. I will show you how we solved this problem through minor improvements of assertr, and usage of shiny.semantic package to generate clear and elegant, yet understandable for business reports. BIOs: Patrícia Martinková is a researcher and vice-head at Department of Statistical Modelling, Institute of Computer Science of the Czech Academy of Sciences. She is also a researcher at Faculty of Education of the Charles University, where she is principal investigator of PRIMUS project Center for Educational Measurement and Psychometrics (CEMP). She is Fulbright alumna and[masked] visiting research scholar with the Center for Statistics and the Social Sciences, and an affiliate assistant professor at Department of Statistics, University of Washington. Her current research focuses on developing models and estimators for measuring the quality of educational tests and psychological assessments with focus on admission and selection process. http://www.cs.cas.cz/martinkova/ Krystian Igras is a Data Scientist at Appsilon Data Science. He is finishing his studies at Warsaw University Match department. In his Master thesis he is contributing to DALEX package - ML black box explainer. True R and Shiny enthusiast who enjoys sharing his knowledge.

  • Machine learning in R

    Sala 329 Wydział MINI PW

    We are going to have a super interesting meeting in April. Two talks focused on machine learning. This meeting will be in English. It is a part of Why R? 2018 conference pre-meetings. 14:00 - 16:00 (90 min + 30 min for discussion) First talk will be given by our special guest - professor Bernd Bischl from Ludwig-Maximilians-University Munich. He is an author of many R packages, among all the mlr (Machine Learning in R), a very interesting framework for machine learning modelling. During his talk he will introduce the logic behind mlr, walk over more advance cases, show some demos and share insight about the most recent developments like iml package. 16:00 - 17:30 (60 min + 30 min of discussion) Second talk will be given by Mateusz Staniak and Przemyslaw Biecek. It will be focused on selected explainers for machine learning models implemented in the family of DALEX packages, like: live, breakDown, auditor and factorMerger. 17:30 - ... (pizza+networking sponsored by WLOG Solutions)

    4
  • Rozstrzygnięcie konkursu Data Science Masters na najlepszą pracę z DS i ML

    Politechnika Warszawska, Wydział MINI

    • What we'll do Zapraszamy na galę finałową z okazji rozstrzygnięcia konkursu Data Science Masters. W konkursie na najlepszą pracę magisterską otrzymaliśmy 72 świetne zgłoszenia z 11 różnych uczelni. Podczas gali przedstawimy tematykę najciekawszych prac magisterskich i usłyszymy trzy wystąpienia osób, które otrzymały nagrodę w tym konkursie. Warto przyjść, posłuchać i porozmawiać. • What to bring • Important to know

  • SER XXXI: Analiza mowy + Świat dla Małych i Dużych

    Sala 107 Wydziału Matematyki i Nauk Informacyjnych Politechniki Warszawskiej

    • What we'll do Tym razem we wtorek! Bezpiecznie o 18:15! 2 prezentacje 18:15-18:45 Danijel Koržinek - Korpusowa analiza mowy w języku R 18:45-19:15 Networking i pizza 19:15-19:45 Daniel Rodak - Świat dla Małych i Dużych - wykorzystanie języka R do popularyzacji nauki 20:00 - afterparty: Pizza przy Politechnice Opisy poniżej # Korpusowa analiza mowy w języku R Dzięki szybkiemu rozwojowi technologii można zautomatyzować wiele zadań związanych z analizą dużych zbiorów nagrań mowy. Takie rozwiązania mają szczególnie duże znaczenie dla różnych dziedzin nauki wykorzystujących w swoich badaniach wielkie korpusy mowy: w lingwistyce, psychologii, socjologii, nawet medycynie. Badania te polegają na mierzeniu różnych wskaźników występujących w nagraniach mowy i porównaniu ich wśród wybranej populacji, w zależności od przeznaczenia. Jako narzędzie łączące wszystko całość z punktu widzenia użytkowników, na świecie wybrano środowisko R. Celem prezentacji będzie zademonstrowanie takiej pracy badawczej na kilku przykładach oraz dyskusja na temat wdrożenia tego typu rozwiązań w Polsce. # BIO: Danijel Koržinek jest adiunktem na Polsko-Japońskiej Akademii Technik Komputerowych. Od kilkunastu lat się zajmuje rozpoznawaniem mowy i pokrewnymi dziedzinami. Uczestniczył w kilku projektach związanych z rozpoznawaniem mowy: w środowisku telefonicznym, do transkrypcji posiedzeń Senatu RP, transkrypcji radia i telewizji, tłumaczenia mowy. Obecnie jest uczestnikiem projektu Clarin-PL, którego celem jest przygotowanie infrastruktury badawczej w dziedzinie nauk humanistycznych i socjologicznych. Poza tym, jest miłośnikiem różnych tematów uczenia maszynowego i ostatnio również języka R. -------------------------------------------------------------------------------------------------------------------------------- # Świat dla Małych i Dużych - wykorzystanie języka R do popularyzacji nauki Bardzo często deklaracja, że ktoś zajmuje się fizyką budzi w ludziach pewien niepokój. Chciałbym pokazać, że zrozumienie fizyki nie jest niemożliwe. Błędem edukacji szkolnej, który jest przyczyną takiego przeświadczenia, jest nacisk na liczenie i zaniedbywanie zrozumienia. Założyłem bloga, którego celem jest wypełnienie tej luki. W jego tworzeniu użycie języka R i wszystkich możliwości jakie daje jest ogromną pomocą. Pokażę jak można wykorzystać wizualizację i analizę danych oraz Shiny do tłumaczenia fizyki w przystępny sposób. # BIO: Daniel Rodak jest absolwentem Inżynierii Nanostruktur na Wydziale Fizyki UW. Podczas studiów zajmował się zagadnieniami od chemii doświadczalnej po fizykę teoretyczną. Pasjonuje się tym jak działa nasz świat. Aby dzielić się tą pasją założył bloga (https://swiatdlamalychiduzych.blogspot.com) popularyzującego naukę, a wizualizacje i aplikacje pisane w R ułatwiają szerzenie wiedzy w zrozumiały sposób. • What to bring • Important to know

    3