Skip to content

What we’re about

Grupa wymiany wiedzy i rozpoznawania narzędzi do rozproszonego przetwarzania danych w trybie wsadowym i strumieniowym (Streaming and Batch Distributed Data Processing).

Narzędzia przewodnie: Apache Spark, Delta Lake, Unity Catalog, Databricks, Apache Iceberg (z możliwością sięgnięcia po Apache Polaris, dbt, trino, Apache Flink, Apache Kafka (z Kafka Streams)).

Główne języki programowania: Python, SQL, Scala, Java

Upcoming events

1

See all
  • Streaming ETL with Spark Declarative Pipelines in Apache Spark 4.1

    Streaming ETL with Spark Declarative Pipelines in Apache Spark 4.1

    ·
    Online
    Online

    Mamy już oficjalne wydanie Spark Declarative Pipelines (SDP) w najnowszej wersji Apache Spark 4.1!

    Podczas nadchodzącego spotkania przyjrzymy się przetwarzaniu strumieniowemu danych w SDP (streaming ETL / streaming data processing pipelines).

    Czego się nauczysz (dowiesz podczas kodowania na żywo) o Spark Declarative Pipelines:

    1. Zbudujesz i uruchomisz prostą aplikację ETL do przetwarzania danych strumieniowo
    2. Użyjesz SQL i Python (zgodnie z własnymi upodobaniami)
    3. Wczytasz dane z lokalnych plików na Twoim dysku przyrostowo
    4. (opcjonalnie) Uruchomisz Apache Kafka i zbudujesz bardziej wyrafinowaną aplikację ETL

    Pomysł dla odważnych: Jeśli chciał(a)byś całość kodować u Ciebie na żywo (z moją pomocą słowną), odezwij się wcześniej lub bezpośrednio na początku spotkania. Ty prezentujesz, ja opowiadam. Brzmi ciekawie!

    W razie pytań, sugestii lub chcesz pomóc, skontaktuj się ze mną na jacek@japila.pl. Każda pomoc mile widziana!

    Proszę o nagłośnienie meetupu wśród Twoich znajomych. Dziękuję i zapraszam!

    • Photo of the user
    • Photo of the user
    • Photo of the user
    4 attendees

Group links

Organizers

Members

649
See all

Find us also at