Przejdź do treści

Szczegóły

Kontynuuj(e)my rozpoznanie możliwości Spark Declarative Pipelines (SDP) w najnowszej wersji Apache Spark 4.1!

Tym razem już z prowadzącym, który może się pochwalić (sic!) certyfikatem Databricks Certified Data Engineer Professional. I to ten sam, który zawsze obiecywał pomoc i chętnie odpowie na pytania związane z egzaminem.

Podczas nadchodzącego spotkania przyjrzymy się ponownie przetwarzaniu strumieniowemu danych w SDP (streaming ETL / streaming data processing pipelines).

Czego się nauczysz (dowiesz podczas kodowania na żywo) o Spark Declarative Pipelines (SDP):

  1. Zbudujesz i uruchomisz aplikację ETL do przetwarzania danych strumieniowo z Apache Kafka.
  2. Użyjesz SQL i Python (zgodnie z własnymi upodobaniami)
  3. Rozbudujesz aplikację z punktu 1. zgodnie z podejściem Medallion Architecture (z warstwami bronze, silver i gold).
  4. (opcjonalnie) Poznasz możliwości Lakeflow SDP w Databricks

Pomysł dla odważnych: Jeśli chciał(a)byś całość kodować u Ciebie na żywo (z moją pomocą słowną), odezwij się wcześniej lub bezpośrednio na początku spotkania. Ty prezentujesz, ja opowiadam. Brzmi ciekawie?

W razie pytań, sugestii lub chcesz pomóc, skontaktuj się ze mną na jacek@japila.pl. Każda pomoc mile widziana!

Proszę o nagłośnienie meetupu wśród Twoich znajomych. Dziękuję i zapraszam!

Pokrewne tematy

Machine Learning
Data Engineering
Predictive Analytics
Python
Open Source

Może ci się również spodobać