Skip to content

Spark Declarative Pipelines for Declarative ETL Pipelines in Python and SQL

Photo of Jacek Laskowski
Hosted By
Jacek L. and Pawel B.
Spark Declarative Pipelines for Declarative ETL Pipelines in Python and SQL

Details

(Kolejny raz zaproszenie wyłącznie na meetupie 🤷‍♂️ Surprise, surprise 😜)

Jedną z nowych możliwości nadchodzącego Apache Spark 4.1 będzie możliwość deklaratywnego tworzenia przepływów (ETL pipelines). Stąd też nazwa Spark Declarative Pipelines (SDP).

Jeśli kiedykolwiek miałaś/-eś przyjemność użyć Delta Live Tables (DLT) w Databricks to SDP jest jego "open source"-owym odpowiednikiem. Zawsze chciałem przejrzeć bebechy DLT i teraz mamy taką sposobność! #cudnie

Zaprezentuję SDP w nadchodzącym Sparku 4.1 od strony użytkowej i inżynierskiej. Zaprezentuję definicje przepływów w SQL i Python w ramach projektu ETL, ale (co bardziej zaawansowane i "spicy") pokażę, w jaki sposób "pożeniono" SQL i Python oraz Spark Connect do stworzenia Spark Declarative Pipelines.

W razie pytań, sugestii lub chcesz pomóc, skontaktuj się ze mną na jacek@japila.pl. Każda pomoc mile widziana!

Proszę o nagłośnienie meetupu wśród Twoich znajomych. Dziękuję i zapraszam!

Photo of Warsaw Data Engineering group
Warsaw Data Engineering
See more events
FREE