(Kolejny raz zaproszenie wyłącznie na meetupie 🤷♂️ Surprise, surprise 😜)
Jedną z nowych możliwości nadchodzącego Apache Spark 4.1 będzie możliwość deklaratywnego tworzenia przepływów (ETL pipelines). Stąd też nazwa Spark Declarative Pipelines (SDP).
Jeśli kiedykolwiek miałaś/-eś przyjemność użyć Delta Live Tables (DLT) w Databricks to SDP jest jego "open source"-owym odpowiednikiem. Zawsze chciałem przejrzeć bebechy DLT i teraz mamy taką sposobność! #cudnie
Zaprezentuję SDP w nadchodzącym Sparku 4.1 od strony użytkowej i inżynierskiej. Zaprezentuję definicje przepływów w SQL i Python w ramach projektu ETL, ale (co bardziej zaawansowane i "spicy") pokażę, w jaki sposób "pożeniono" SQL i Python oraz Spark Connect do stworzenia Spark Declarative Pipelines.
W razie pytań, sugestii lub chcesz pomóc, skontaktuj się ze mną na jacek@japila.pl. Każda pomoc mile widziana!
Proszę o nagłośnienie meetupu wśród Twoich znajomych. Dziękuję i zapraszam!