#38. Data Tech Talks - Open source, chmura publiczna oraz nowoczesne hurtownie.


Details
"Warsaw Data Tech Talks" powraca po długiej przerwie i chce na stale zagościć w waszych kalendarzach :) Już w najbliższą środę tj. 17 lipca spotykamy się w "Lokal na Mokotowie", gdzie prezentację poprowadzą eksperci z GetInData - Adam Kawa, Marcel Kołodziejczyk oraz Grzegorz Kołakowski. Sprawdźcie szczegóły wystąpień.
- Zdarzeniowe zasilanie i przeliczanie danych w nowoczesnej hurtowani danych opartej o open-source.
ABSTRAKT:
W naszej prezentacji opowiemy o fragmencie zdarzeniowej platformy danych nowej generacji, którą budujemy wspólnie z dużą firmą z branży retail. Fragment ten odpowiedzialny jest za wyciąganie danych wszelkich możliwych źródeł w sposób strumieniowy, a także budowanie żywych modeli danych. Żywych modeli, czyli tworzonych inkrementalnie przy użyciu danych surowych i zagregowanych, z przebudową jak najmniejszej części modelu w sposób kaskadowy, a także obsługujących zdarzenia typu dodania, zmodyfikowania, czy usunięcia rekordu. Implementacja tych funkcjonalności jest wciąż bardzo trudna w popularnych technologiach Big Data, ale udało nam się spełnić te wymagania przy użyciu technologii open-source takich jak Hadoop, Hive, Nifi, Kafka, Debezium, a podczas prezentacji opiszemy nasze doświadczenia, wyzwania i problemy.
PRELEGENCI:
Grzegorz Kołakowski - Senior Data Engineer z sześcioletnim doświadczeniem produkcyjnym. Obecnie wielki zwolennik przetwarzania strumieniowego oraz powiązanych z nim technologii open source, w szczególności Apache Flink i Apache Kafka. W GetInData, Grzegorz pomaga firmom w budowaniu skalowalnych, rozproszonych systemów do przechowywania i przetwarzania dużych ilości danych.
Marcel Kołodziejczyk - Entuzjasta technologii big data oraz technologii przetwarzania strumieniowego. Większość swojej kariery zawodowej spędził w Gemius gdzie stworzył wysoce skalowalny i wydajny system obsługujący 200 tys. zdarzeń na sekundę i przechowujący petabajty danych. Obecnie, w GetInData tworzy hurtownie danych przy użyciu narzędzi open source.
- Przyjaciele czy wrogowie? O tym jak open-source i chmura publiczna konkurują ze sobą i pomagają sobie w świecie Big Data oraz co z tego może wynikać.
ABSTRAKT:
Opowieść o tym jak wygląda świat Big Data w dobie zażartej walki między dostawcami bazującymi na projektach open-source (np. Confluent, Ververica, Cloudera, Starburst) i chmurze publicznej (np. Google Cloud, Amazon Web Services). Walki, której zasady gry zmieniają się nieustannie wraz z nowymi trendami rynkowymi takimi jak konteneryzacja, multi/hybrid/public cloud, serverless, przetwarzanie strumieniowe, czy AI/ML. W efekcie powstają konkurencyjne ze sobą projekty (np. Redshift/BigQuery vs. Presto, czy Kinesis/PubSub vs. Kafka), najlepsze projekty open-source opakowywane są w chmurowe etui (np. Amazon Managed Streaming for Apache Kafka, Google Cloud Composer oparty o Apache Airflow), a także pojawiają się projekty które umożliwiają łatwiejszą przesiadkę do chmury (np. Kubernetes, Apache Beam, Cloud BigTable API). Wszystko to sprawia, że korzysta na tym użytkownik, choć nad wieloma projektami i dostawcami pojawiają się czarne chmury (np. Hadoop, Cloudera).
PRELEGENCI:
Adam Kawa - zajmuje się technologiami Big Data od lat. Pracował w wielu firmach m.in. Spotify w Szwecji gdzie jego głównymi zadaniami był rozwój największego klastra Hadoop w Europie oraz implementowanie aplikacji ETL na dużą skalę. Adam jest współzałożycielem firmy GetInData, która pomaga innym organizacjom wykorzystywać technologie Big Data w produkcyjnych zastosowaniach. Własnymi rękami wdrażał projekty Big Data w startupach (np. szwedzki Truecaller) jaki i globalnych korporacjach z branż takich jak farmaceutyka, media, czy FMCG.
----
PS. GetInData rekrutuje na kilka stanowisk związanych z Big Data engineering. Więcej szczegółów na https://nofluffjobs.com/jobs?criteria=getindata lub na info@getindata.com
Dla wszystkich uczestników meetup-u czekać będą przekąski i piwo sponsorowane przez GetInData!
Do zobaczenia :)

#38. Data Tech Talks - Open source, chmura publiczna oraz nowoczesne hurtownie.