Przeszły Meetup

14. spotkanie Data Community Trójmiasto

Ten Meetup już się odbył

28 – wzięło udział

Pomorski Park Naukowo Technologiczny

Aleja Zwycięstwa 96/98 Bud. IV, sala F0.02 · Gdynia

Jak nas znaleźć

Wejście od strony ulicy Stryjskiej, sala na parterze.

Zdjęcie miejsca wydarzenia

Szczegóły

Ze względu na chorobę prelegentów jesteśmy zmuszeni przełożyć spotkanie na 23.10. Przepraszamy za informację w ostatniej chwili.

Zapraszamy na kolejne spotkanie Data Community - Trójmiasto.

UWAGA, zmieniło się miejsce spotkań. Sponsorem sali jest firma High Wheel Software.

KIEDY

23 października (wtorek) godz. 17:45

AGENDA

17:45 – 18:00 Rozpoczęcie spotkania, sprawy organizacyjne

18:00 – 18:50 Natalia Reszka - Data Mining Best Practices

18:50 – 19:00 Networking,

19:00 - 19:50 Bartosz Szymula, Maciej Górski - RCD - czyli, co zrobić z rozpędzonym SCD.

20:00 Zakończenie

ABSTRAKTY

Data Mining Best Practices

W wystąpieniu przedstawiony zostanie zestaw dobrych praktyk zarządzania procesem modelowania w firmie, gdzie wymagana jest ścisła współpraca analityka danych z biznesem. Zestaw ten okazuje się być użytecznym narzędziem w pracy analityka, nie tylko zgodnym ze światowymi standardami, ale też możliwym do wprowadzenia w korporacyjnej rzeczywistości. Główne filary DMBP to : prototypowanie, CRISP-DM oraz monitoring powdrożeniowy modelu. Wykorzystując te zasady analityk dostarcza szybki sukces, unika typowych błędów i oszczędza czas na pytania typu „co dalej?”.

Natalia Reszka

Absolwentka informatyki i ekonometrii oraz socjologii na Uniwersytecie Gdańskim. Od 3 lat analityk danych w firmie windykacyjnej BEST, gdzie zajmuje się optymalizacją strategii w oparciu o techniki data mining i uczenia maszynowego. Wcześniej związana z sopocką firmą badawczą PBS, gdzie tworzyła rozwiązania analityczne dla branży telekomunikacyjnej, energetycznej i finansowej.

RCD - czyli, co zrobić z rozpędzonym SCD.

O wymiarze RCD (Rapidly Changing Dimensions) możemy mówić jeżeli dla jednego lub więcej atrybutów zachodzi dużo, szybkich zmian w wielu wierszach. Przy takim scenariuszu, zapewnienie SCD typu 2 może być już niewystarczające.
Obsługa wymiarów RCD staję się bardzo często niemałym problemem przy tworzeniu hurtowni danych. Jest to głównie związane z zapewnieniem wydajnego mechanizmu po stronie procesu ETL oraz dobrze zaprojektowanych wymiarów, które będą przechowywały bardzo dużą ilość danych.
Na spotkaniu zaprezentujemy podstawowe typy mechanizmów odpowiedzialnych za wyłapanie zmian w danych po stronie systemu źródłowego oraz zaproponujemy strukturę wymiaru po stronie hurtowni/kostki, który pozwoli na wydajne wykorzystanie zarchwizowanych informacji.

Bartosz Szymula i Maciej Górski

Od 7 lat developerzy i architekci systemów Business Inteligence opartych głównie na Microsoft SQL Server.
Prowadzili, bądź uczestniczyli w dedykowanych projektach przeznaczony głównie dla dużych i średnich firm.
Obecnie, w ramach pracy w High Wheel Software, nadzorują i konsultują działania związne z globalnym przepływem danych dla jednego z największych koncernów medycznych na świecie.