Skip to content

Details

(Kolejny raz zaproszenie wyłącznie na meetupie 🤷‍♂️ Surprise, surprise 😜)

Jedną z nowych możliwości nadchodzącego Apache Spark 4.1 będzie możliwość deklaratywnego tworzenia przepływów (ETL pipelines). Stąd też nazwa Spark Declarative Pipelines (SDP).

Jeśli kiedykolwiek miałaś/-eś przyjemność użyć Delta Live Tables (DLT) w Databricks to SDP jest jego "open source"-owym odpowiednikiem. Zawsze chciałem przejrzeć bebechy DLT i teraz mamy taką sposobność! #cudnie

Zaprezentuję SDP w nadchodzącym Sparku 4.1 od strony użytkowej i inżynierskiej. Zaprezentuję definicje przepływów w SQL i Python w ramach projektu ETL, ale (co bardziej zaawansowane i "spicy") pokażę, w jaki sposób "pożeniono" SQL i Python oraz Spark Connect do stworzenia Spark Declarative Pipelines.

W razie pytań, sugestii lub chcesz pomóc, skontaktuj się ze mną na jacek@japila.pl. Każda pomoc mile widziana!

Proszę o nagłośnienie meetupu wśród Twoich znajomych. Dziękuję i zapraszam!

AI/ML
Machine Learning
Data Engineering
Predictive Analytics
Python

Members are also interested in