Skip to content

Details

Agenda
📌 Marcin Szpot: Modding AWS Glue za pomocą sterowników jar 🇵🇱
📌 Jacek Laskowski: Spark Declarative Pipelines (Apache Spark 4.1.0-SNAPSHOT) 🇵🇱
📌 Panel: Data Mesh - czy to kierunek dla każdego? - Marcin Szpot, Kaya Akçelikli, Marcin Krystek 🇵🇱
🍕 Pizza i networking

🌍 Gdzie: Poznań, Allegro, ul. Wierzbięcice 1B, budynek D
🤝 Partner: Allegro

(The event will be held in Polish)

—————————————————————————————

Panel: Data Mesh - czy to kierunek dla każdego? 🇵🇱

Paneliści:

  • Marcin Szpot
  • Kaya Akçelikli
  • Marcin Krystek

—————————————————————————————

Marcin Szpot: Modding AWS Glue za pomocą sterowników jar

Abstract:
Marcin zaprezentuje zawiłości pracy z AWS Glue, pokazując, jak odblokować dodatkowe korzyści wydajnościowe poprzez dodawanie zewnętrznych sterowników JDBC przy użyciu pakietów JAR.

Bio:
Senior Cloud Data Engineer w firmie Future Processing. Posiada ponad 10 lat doświadczenia zdobytego w różnorodnych branżach, takich jak farmacja, handel detaliczny, finanse, motoryzacja, media i ubezpieczenia.
Swoją przygodę z danymi rozpoczął jako analityk, stopniowo rozwijając się w kierunku inżynierii danych oraz zagadnień opsowych.
—————————————————————————————

Jacek Laskowski: Spark Declarative Pipelines (Apache Spark 4.1.0-SNAPSHOT)

Abstract:
Jedną z nowych możliwości nadchodzącego Apache Spark 4.1 będzie możliwość deklaratywnego tworzenia przepływów (ETL pipelines). Stąd nazwa Spark Declarative Pipelines (SDP). Jeśli kiedykolwiek miałaś/-eś/-liście przyjemność użyć Delta Live Tables (DLT) w Databricks to SDP jest jego "open source"-owym odpowiednikiem. Zawsze chciałem przejrzeć bebechy DLT i teraz mamy taką sposobność! Notabene, Lakeflow Declarative Pipelines (LDP) (poprzednio znane jako Delta Live Tables (DLT)) w Databricks to managed Spark Declarative Pipelines z vanilla open-source Apache Spark z dodatkami. Zaprezentuję SDP w nadchodzącym Sparku 4.1 od strony użytkowej i inżynierskiej. Zaprezentuję definicje przepływów w SQL i Python w ramach projektu ETL, ale (co bardziej zaawansowane i "spicy") pokażę, w jaki sposób "pożeniono" SQL i Python oraz Spark Connect do stworzenia Spark Declarative Pipelines.

Czego się nauczysz (dowiesz na żywo):
1. Stworzysz projekt SDP
2. Stworzysz definicje przepływów w SQL i Python
3. Poznasz sposób "połączenia" SQL, Python oraz Spark Connect do stworzenia Spark Declarative Pipelines.

Bio:
Niezależny data(bricks) engineer specjalizujący się w technologiach Apache Spark (w tym Spark SQL i Spark Structured Streaming), Delta Lake, Unity Catalog, MLflow oraz Databricks. Okazjonalnie eksploruje także szersze obszary inżynierii danych, zwłaszcza podczas spotkań Warsaw Data Engineering.

Jacek oferuje usługi z zakresu tworzenia oprogramowania, konsultingu, a także praktycznych, dogłębnych warsztatów i mentoringu. Jest najbardziej znany z serii darmowych książek online „The Internals Of”, dostępnych na stronie https://books.japila.pl/, które szczegółowo opisują wewnętrzne mechanizmy narzędzi i frameworków data eng.
—————————————————————————————

Kaya Akcelikli

Bio:
Lider zespołów danych i ekspert w obszarze analizy oraz zarządzania danymi. Kieruje programem Allegro Monety Bonus, łącząc cele biznesowe z doświadczeniem użytkownika i złożonością techniczną rozwiązań. Pasjonat wykorzystania danych w podejmowaniu decyzji oraz wdrażania innowacji w e-commerce.

—————————————————————————————

Marcin Krystek

Bio:
TBA

Events in Poznań, PL
Big Data
Data Mining
Data Science using Python
Predictive Analytics
Data Management

Members are also interested in