• PAZUR 33 - Jan Górecki (data.table)

    003A (Gmach Główny), Uniwersytet Ekonomiczny w Poznaniu

    Szczegóły: 1. Jan Górecki -- developer data.table data.table is well recognised as fast and powerful tool to work with big data that can fit into single machine. There are although other aspects of it that are not that widely spread, thus the focus on presentation will be on those, namely data.table syntax, and memory consumption. We will take closer look at how syntax and memory usage compares to other commonly used tools. 2. TBA

    2
  • PAZUR 32 + WhyR + Analyx

    003A (Gmach Główny), Uniwersytet Ekonomiczny w Poznaniu

    Przewidujemy dwie prezentacje w języku angielskim. 1. Segmentation using NMF decomposition -- Marcin Kosiński 2. Efficient R programming: tips, tricks, and some interesting packages -- Adolfo Alvarez Spotkanie odbędzie się w sali 003A (przyziemie, Gmach Główny UEP, Al. Niepodległości 10). Spotkanie odbywa się w ramach cyku spotkań poprzedzających konferencję WhyR. ---------------------------------------------------------------------- This pre-meeting promots - Why R? 2019 Conference http://whyr.pl/2019/ - EARLY BIRD Registration http://whyr.pl/2019/register/ - Call for Papers http://whyr.pl/2019/submit/ # Segmentation using NMF decomposition -- Marcin Kosiński From the nowadays segmentation, we require them to follow below features: - it should be balanced, - segments should be distinctive, - the discovered over and under indexed features within segments should create a meaningful story, - and in the best case the amount of differentiative factors that drives segmentation should be small. The last requirement often is a bottleneck in the scenario of a survey where respondents are asked enormous amount of questions. The solution, one from many, to this use case can be the nonnegative matrix factorization that in a one attempt segments respondents and their features! I'll present concept of the NMF decomposition and I'll present applications in R, with the explanation of diagnostic plots. Working with high dimensional data? Often facing the need to group observations? That's a good presentation for you. # Speakers bio Marcin Kosiński has a master degree in Mathematical Statistics and Data Analysis specialty. Challenges seeker and devoted R language enthusiast. In the past, keen on the field of large-scale online learning and various approaches to personalized news article recommendation. Community events host: organizer of Why R? conferences. Interested in R packages development and survival analysis models. Currently explores and improves methods for quantitative marketing analyses and global surveys at Gradient Metrics. ---------------------------------------------------------------------- Efficient R programming: tips, tricks, and some interesting packages -- Adolfo Alvarez Learning R is a constant process, no matter if you are giving your first steps or you are already an R code star, there is always room to improve. In this talk we will try to agree on what is an efficient code, how to measure the efficiency of it, how to detect bottlenecks, and how to improve your code. Hopefully you will get some new ideas, packages or tricks you didn't know about! Adolfo Alvarez is PhD in Business Management and Quantitative Methods, working as a data scientist in Analyx, and as adjunct professor in Collegium Da Vinci. His current main focus is to create, train, and develop data science teams.

    2
  • PAZUR 31 - Julia vs R + bookdown -- sponsorowane przez Slideworx

    Plan: 18:00 - 18:40 - R vs Julia: teoria i praktyka 18:40 - 19:20 - pizza sponsorowana przez Slideworx 19:20 - 20:00 - Proste rzeczy są trudne, słów kilka o tworzeniu szablonów w bookdown 20:00 - część nieoficjalna Szczegóły: 1. R vs Julia: teoria i praktyka -- prelegent: Bogumił Kamiński Streszczenie: 15 lat temu zacząłem wykorzystywać R w badaniach i dydaktyce, a około 5 lat temu dołączyłem język Julia do wykorzystywanego przeze mnie zestawu narzędzi. W tej chwili większość zespołu, z którym pracuję wykorzystuje język Julia w swoich pracach. W trakcie prezentacji odpowiem na pytanie do czego potrzebowałem tego języka, a kiedy ciągle używam R i dlaczego. Zapraszam do otwartej dyskusji. W szczególności planuję poruszyć takie zagadnienia: - Wykorzystanie gotowych bibliotek a pisanie własnych algorytmów - Konsekwencje nominalnego systemu typów w Julia - Rcpp vs Julia - Integracja pomiędzy R i Julia - Zarządzanie zależnościami w kodzie (kontrola wersji pakietów) - Jakie biblioteki w Julia są w tej chwili naprawdę dobre, a co wymaga jeszcze dopracowania Bio: Pracuję w Zakładzie Wspomagania i Analizy Decyzji w Szkole Głównej Handlowej w Warszawie. Specjalizuję się w zastosowaniu metod obliczeniowych do modelowania problemów ekonomicznych i zarządczych. Moje szczególne zainteresowanie naukowe to projektowanie i analiza wyników eksperymentów komputerowych. Przez ostatnie 15 lat brałem udział w realizacji ponad stu projektów z zakresu wdrożenia rozwiązań analitycznych. Linki: - http://bogumilkaminski.pl/ - https://github.com/bkamins 2. Proste rzeczy są trudne, słów kilka o tworzeniu szablonów w bookdown -- prelegent: Michał Czyż O prelegencie: Z wykształcenia biolog. Były pracownik Instytutu Ochrony Roślin, stypendysta Europejskiej Agencji ds. Bezpieczeństwa Żywności, aktualnie freelancer. Prywatnie pasjonat R, fantastyki i LEGO Techniczne.

    5
  • PAZUR 30 -- Marketing Science Methods oraz prognozowanie wyników żużla

    Przewidujemy dwie prezentacje 1. Marketing Science Methods in R (Ming Shan, Robert Świderski from Kynetec) Marketing science seeks to understand customers and market behaviors to help develop marketing solutions primarily through quantitative analytics. It blends some of its own methods with a broad arrange of general statistical approaches. So it is not a surprise that R can be a very good choice for marketing science just as R is one of the go-to choices for data science. We would like to discuss a few commonly used methods in marketing science including perceptual mapping, cluster ensemble, discrete choice modeling and MaxDiff scaling and the use of R to achieve them. Some additional applications leveraging the graphical strength of R and the power of Shiny will be briefly discussed. We will share our experience about some of the unique benefits of R for marketing science within Kynetec. Ming Shan – Senior Director, Marketing and Data Sciences Ming has 25+ years of combined experience in marketing/direct marketing research, financial modeling and academic research. His current roles are focused on marketing and data sciences, research methodologies and statistical modeling. Ming holds a B.S. in Computer Science and a MBA with concentration in Marketing. He also has an advanced degree from the University of Michigan. Ming has been living in Boston, U.S. since 2010. He is excited about using R everyday as he started about 15 years ago. Robert Świderski – Senior Analyst, Marketing and Data Sciences Robert has 7 years experience working with market research data. He started with reporting the results of panel studies for the automotive industry. Now within Kynetec Robert is using data science methods to help get better insights from custom research conducted for agriculture and animal health sector. He graduated from Sociology (UAM), Finance & Accounting (UEP) and Advanced Analytical Technics in Business (UEP). 2. Prognozowanie wyników żużla za pomocą pakietu sport -- Dawid Kałędkowski Rywalizacja w sporcie lub w grach online wymaga ciągłego aktualizowania jakości zawodników aby precyzyjnie dobierać właściwych przeciwników, ocenić konkurencyjność wydarzenia albo wycenić zakład. Algorytmy typu online pasują idealnie w sytuacji, w której napływ danych jest zbyt intensywny, obniżając obciążenie obliczeniowe. Na podstawie wyników biegów żużlowych zaprezentowanych zostanie kilka metod zaiplementowanych w R-owym pakiecie sport. Dowiemy się również, kto jest aktualnie najlepszym zawodnikiem na świecie i jak zmieniała się forma czołowych zawodników w czasie. References: 1. Mark E. Glickman (1999): Parameter estimation in large dynamic paired comparison experiments. *Applied Statistics*, 48:[masked]. URL http://www.glicko.net/research/glicko.pdf 2. Mark E. GLickman (2001): Dynamic paired comparison models with stochastic variances, *Journal of Applied Statistics*, 28:[masked]. URL http://www.glicko.net/research/dpcmsv.pdf 3. Mark E. Glickman (1995): A Comprehensive guide to chess ratings. *American Chess Journal*, 3, pp. 59--102. http://www.glicko.net/research/acjpaper.pdf 4. Ruby C. Weng and Chih-Jen Lin (2011): A Bayesian Approximation Method for Online Ranking. *Journal of Machine Learning Research*,12:[masked]. URL http://jmlr.csail.mit.edu/papers/volume12/weng11a/weng11a.pdf 5. William D. Penny and Stephen J. Roberts (1999): Dynamic Logistic Regression, Departament of Electrical and Electronic Engineering, Imperial College

    2
  • PAZUR 29 — DALEXverse oraz Analyx

    0.6 CEUE UEP

    Zapraszamy na kolejne spotkanie użytkowników R w Poznaniu! Przewidujemy dwa referaty, o których poniżej. Najbliższe spotkanie będzie sponsorowane przez firmę Analyx. Serdecznie zachęcam do zapoznania się z ich ofertą biznesową i ofertami pracy -- http://analyx.com/en/ Temat 1 — Jak wyjaśnić wynik złożonego modelu predykcyjnego? Czyli o DALEXverse, rodzinie narzędzi do eksploracji, wyjaśniania i wizualizacji modeli typu las losowy, sieć neuronowa, boosting czy innych czarnych skrzynek. Referujacy: Przemysław Biecek (Uniwersytet Warszawski, Politechnika Warszawska) 2. Analyx Machinery: processes and solutions for marketing analytics (This talk will be in english) Referujący: Katarzyna Klamecka-Pohl and Adolfo Alvarez (Analyx) Miejsce: CEUE, sala 0.6

    8
  • PAZUR 28 - automatyzacja pracy w R + dobór próby w badaniach społecznych

    UNIWERSYTET EKONOMICZNY POZNAŃ

    Konferencja Why R 2018 (http://whyr2018.pl/) już w lipcu, a my zapraszamy na kolejne spotkanie przedkonferencyjne! 1. Nie tylko analiza danych. R jako narzędzie doboru próby w badaniach społecznych - Darek Szklarczyk Dobór próby w badaniach społecznych i analizie danych budzi wiele różnych skojarzeń, czasem kontrowersji, czasem emocji ("czy Pana/i badania były aby reprezentatywne?"). Z pewnością bywa też różnie rozumiany, zależnie od badawczej/analitycznej specjalizacji. W trakcie prezentacji opowiem o podstawowych sposobach doboru próby w badaniach oraz w jaki sposób R (pakiety, funkcje) może w tym pomóc - a to na przykładach projektów, jakie mieliśmy okazje realizować. O prelegencie: Socjolog, badacz, analityk i trener, współzałożyciel Fundacji Rozwoju Badań Społecznych. Asystent w Centrum Ewaluacji i Analiz Polityk Publicznych UJ. Kieruje projektami badawczymi. Projektuje badania i narzędzia badawcze. Bada społeczeństwo i gospodarkę (m.in. innowacyjność, rynek pracy, działalność organizacji branżowych i związków zawodowych), nieco rzadziej, ale też, różne rynki dóbr i usług. Analizuje dane (ilościowe i jakościowe). Doradza. Szkoli. Pisze. Prezentuje. 2. Automatyzacja pracy w R - Michał Czyż Prawdopodobnie większość użytkowników R zaczyna swoją przygodę od stosowania jego świetnych black-box’owych rozwiązań statystycznych. W kolejnym etapie odkrywamy coraz to nowe możliwości przetwarzania i analizy danych. Wyposażeni w doskonałą znajomość tidyverse próbujemy swoich sił z Shiny czy Machine Learning. Poza tymi mniej lub bardziej zaawansowanymi technologiami istnieje jednak przestrzeń na zastosowanie R, o której rzadko się mówi. Jest nią automatyzacja codziennych, nudnych zadań. W pracy nad oceną zagrożenia agrofagiem takim nudnym codziennym zadaniem jest pozyskiwanie informacji na temat szkodników z bazy danych, które są następnie przedstawiane w raportach lub tabelach ‘przyjaznych dla człowieka’. W ramach prelekcji zostanie pokazane jak używając kilku prostych technik (SQL, REST, web-scraping) można zaprząc R do wykonania żmudnej pracy za nas. O prelegencie: Z wykształcenia biolog. Od 2015 roku pracownik Instytutu Ochrony Roślin, aktualnie przebywający w Berlinie, w Federalnym Instytucie Oceny Ryzyka, jako naukowiec wizytujący w ramach programu EU-FORA. Zawodowo zajmuje się oceną ryzyka związanej produkcją i konsumpcją żywności, głównie Oceną Zagrożenia Agrofagiem. Współautor kilkunastu publikacji naukowych. Prywatnie pasjonat R, fantastyki i LEGO Technic.

    2
  • PAZUR 26 -- podsumowanie eRum 2018 i flexdashboard

    UNIWERSYTET EKONOMICZNY POZNAŃ

    Na najbliższe spotkanie przewidzieliśmy dwa wystąpienia 1. Podsumowanie eRum 2018 -- informacje o pakietach, ciekawych wystąpieniach -- studenci SKN Estymator 2. Wizualizacja danych synoptycznych przy uzyciu biblioteki flexdashboard -- Mariusz Kupczyk (UAM) - prezentacja przedstawiać będzie wykorzystaniu pakietu flexdashboard, zastosowanego do wizualizacji internetowej. Bibliotekę zestawiono z innymi pakietami R, takimi jak: plotly, highcharter.

    1
  • PAZUR 26 + Pearson

    0.5 CEUE UEP

    Program spotkania: - 18:00 - 18:10 -- krótki przegląd newsów ze świata R - 18:10 - 18:50 -- prezentacja Krzysztofa - 18:50 - 19:20 -- przerwa - 19:20 - 20:00 -- prezentacja Mateusza Szczegóły: 1. R i Tensorflow -- Krzysztof Jędrzejewski (30 min prezentacja + 10 min na pytania) Tensorflow jest powszechnie wykorzystywanym w Pythonie narzędziem do budowy sieci neuronowych. Można z niego jednak korzystać nie tylko w Pythonie, gdyż od jakiegoś czasu dostępny jest w R pakiet pozwalający korzystać z jego dobrodziejstw. Nie służy on także jedynie do budowy sieci neuronowych. Pozwala on dopasowywać do danych dość szeroką gamę modeli, oferując dużą elastyczność ich definiowania. W ramach prelekcji zostanie przedstawione w jaki sposób można definiować modele w Tensorflow, oraz jak można wpływać na to jak parametry modelu zostaną dopasowane do danych. 2. Programowanie funkcyjne w R z pakietem purrr -- Mateusz Otmianowski (30 min prezentacja + 10 min na pytania) R jest językiem funkcyjnym, jednak nie wszyscy w pełni wykorzystują możliwości jakie to za sobą niesie. W ramach prelekcji zaprezentuje jak można wykorzystać idee programowania funkcyjnego w R przy pomocy pakietu purrr. Ułatwia to automatyzację powtarzalnych zadań, sprawia, że kod jest zwięzły i przez to bardziej zrozumiały oraz mniej podatny na błędy.

    4
  • PAZUR 25 - od wycinki drzewa do prawie big data

    Zaplanowaliśmy dwa wystąpienia 1. Przegląd nowych i (mam nadzieję) ciekawych pakietów R — Maciej Beręsewicz (Uniwersytet Ekonomiczny w Poznaniu, Urząd Statystyczny w Poznaniu) 2. Proste i złożone modelowanie w ekologii lasu - od poletek po kontynent problemy są podobne — Marcin Dyderski (https://scholar.google.pl/citations?user=TgIf1A8AAAAJ&hl=pl) (Polska Akademia Nauk, Uniwersytet Przyrodniczy w Poznaniu). Streszczenie: W swoim wystąpieniu chciałbym podzielić się swoimi doświadczeniami z modelowaniem procesów ekologicznych w różnych skalach przestrzennych. Mimo że tematyka jest dość egzotyczna, to problemy stojące przed ekologami nie odbiegają od głównych mankamentów naszej pracy analitycznej. Na przykładzie kilku realizowanych projektów chciałbym pokazać pułapki związane z doborem zmiennych, niestarannym zbiorem danych, nadintepretacją uzyskanych wyników oraz komunikatywnością przekazu. Dotknę też tematu doboru odpowiednich metod i problemów związanych z estymacją potrzeb i nastawienia Recenzentów, ponieważ często ma to wpływ na przebieg naszej pracy.

    1
  • PAZUR 24 - Google+R

    0.5 CEUE UEP

    Plan spotkania: Łukasz Wawrowski (UE Poznań, US Poznań) - Analiza danych z Google Forms w R i Shiny Google Forms to jeden z najpopularniejszych serwisów oferujących tworzenie ankiet w Internecie. Celem referatu jest przedstawienie pakietu googlesheets, który umożliwia analizę danych zebranych w arkuszach Google przy użyciu R. Podczas prezentacji zostanie także przybliżony temat Google Apps Script czyli tworzenia nowych ankiet z poziomu kodu, zamiast domyślnego kreatora. Jest to szczególnie użyteczne w przypadku prowadzenia cyklicznych badań. Wyniki ankiet mogą być automatycznie przetwarzane i publikowane w aplikacji Shiny. Nadal szukamy drugiego prelegenta!

    1