Spark Declarative Pipelines with Delta Lake
Details
Po dłuższej przerwie wracamy do poznawania Spark Declarative Pipelines (SDP) w najnowszej wersji Apache Spark 4.1 ze szczególnym uwzględnieniem wsparcia dla Delta Lake! 💰❤️
Podczas nadchodzącego spotkania przyjrzymy się przetwarzaniu strumieniowemu danych w SDP (streaming ETL / streaming data processing pipelines) z danymi w tabelach w formacie Delta Lake. Przyjrzymy się zapisom i odczytom w przepływach SDP do i z tabel w tym formacie.
Czego się nauczysz (dowiesz podczas kodowania na żywo) o Spark Declarative Pipelines (SDP):
- Zbudujesz i uruchomisz aplikację ETL do przetwarzania danych strumieniowo z Delta Lake.
- Użyjesz SQL i Python (zgodnie z własnymi upodobaniami)
- Spróbujesz rozbudować aplikację z punktu 1 zgodnie z podejściem Medallion Architecture (z warstwami bronze, silver i gold, potencjalnie z różnymi formatami tabel).
Protip: Jeśli chciał(a)byś całość kodować u siebie na żywo (z moją pomocą słowną), odezwij się wcześniej lub bezpośrednio na początku spotkania. Ty prezentujesz, ja opowiadam. Brzmi ciekawie? Wchodzisz w to?
W razie pytań, sugestii lub jeśli chcesz pomóc, skontaktuj się ze mną na jacek@japila.pl. Każda pomoc mile widziana!
Proszę o nagłośnienie meetupu wśród Twoich znajomych. Dziękuję i zapraszam!
