Streaming Queries in Spark Declarative Pipelines (Apache Spark 4.1.0) revisited
Szczegóły
W zasadzie zapowiedź jak poprzednio. Teoretycznie powinno być dokładniej i praktyczniej.
Niebawem nowe wydanie Apache Spark 4.1.0, więc kontynuujemy rozpoznanie Spark Declarative Pipelines od strony streaming queries (opartymi na good ol' Spark Structured Streaming).
Czego się nauczysz (dowiesz podczas kodowania na żywo):
- Stworzysz projekt SDP (z pomocą starego dobrego uv już w wersji 0.9.11! 🔥)
- Poznasz dekorator @dp.append_flow oraz CREATE FLOW AS INSERT INTO BY NAME do definiowania przepływów (flows 🤷♂️)
- Poznasz dwa nie-dekoratory dp.create_sink i dp.create_streaming_table oraz CREATE STREAMING TABLE
- Podsumujemy spotkanie omówieniem (nie)możliwych integracji z Delta Lake, Unity Catalog oraz Databricks Asset Bundles.
W razie pytań, sugestii lub chcesz pomóc, skontaktuj się ze mną na jacek@japila.pl. Każda pomoc mile widziana!
Proszę o nagłośnienie meetupu wśród Twoich znajomych. Dziękuję i zapraszam!
Machine Learning
Data Engineering
Predictive Analytics
Python
Open Source
