Przejdź do treści

Spark Declarative Pipelines for Declarative ETL Pipelines in Python and SQL

Zdjęcie użytkownika Jacek Laskowski
Hosted By
Jacek L. i Pawel B.
Spark Declarative Pipelines for Declarative ETL Pipelines in Python and SQL

Szczegóły

(Kolejny raz zaproszenie wyłącznie na meetupie 🤷‍♂️ Surprise, surprise 😜)

Jedną z nowych możliwości nadchodzącego Apache Spark 4.1 będzie możliwość deklaratywnego tworzenia przepływów (ETL pipelines). Stąd też nazwa Spark Declarative Pipelines (SDP).

Jeśli kiedykolwiek miałaś/-eś przyjemność użyć Delta Live Tables (DLT) w Databricks to SDP jest jego "open source"-owym odpowiednikiem. Zawsze chciałem przejrzeć bebechy DLT i teraz mamy taką sposobność! #cudnie

Zaprezentuję SDP w nadchodzącym Sparku 4.1 od strony użytkowej i inżynierskiej. Zaprezentuję definicje przepływów w SQL i Python w ramach projektu ETL, ale (co bardziej zaawansowane i "spicy") pokażę, w jaki sposób "pożeniono" SQL i Python oraz Spark Connect do stworzenia Spark Declarative Pipelines.

W razie pytań, sugestii lub chcesz pomóc, skontaktuj się ze mną na jacek@japila.pl. Każda pomoc mile widziana!

Proszę o nagłośnienie meetupu wśród Twoich znajomych. Dziękuję i zapraszam!

Photo of Warsaw Data Engineering group
Warsaw Data Engineering
Zobacz więcej wydarzeń
Wydarzenie online
Link widoczny dla uczestników wydarzenia
BEZPŁATNIE