134 Spotkanie Data Community we Wrocławiu
Details
Dzień dobry :)
Zapraszamy na, jak zawsze darmowe, spotkanie Wrocławskiej grupy pasjonatów technologii związanych z systemami bazodanowymi, analizą danych oraz technologiami pokrewnymi.
Spotkanie odbędzie się 19.03 tradycyjnie w Pub Wędrówki na Podwalu.
➡️ Agenda spotkania:
18:00 – 18:10 Rozpoczęcie spotkania, sprawy organizacyjne
18:10 – 19:10 Ewolucja ekstrakcji danych: Natywne parsowanie dokumentów za pomocą AI na platformie Databricks - Konrad Kukulski
19:10 – 20:00 Networking
20:00 – 21:00 Czy rodzaj procesora ma znaczenie w Databricks. Czyli o wydajność i kosztach różnych typów CPU. - Piotr Waszkiewicz
21:00 Zakończenie
➡️ Abstrakty Sesji:
- Ewolucja ekstrakcji danych: Natywne parsowanie dokumentów za pomocą AI na platformie Databricks
Czy można wyciągnąć strukturalne dane z tysięcy plików PDF, obrazów i dokumentów za pomocą jednego zapytania SQL? Podczas naszych poprzednich spotkań badaliśmy fundamenty LLM oraz precyzyjne sterowanie ekstrakcją przy użyciu biblioteki KOR. Czas na kolejny krok w tej ewolucji.
W trzeciej odsłonie cyklu o danych nieustrukturyzowanych, skupimy się na przełomowej funkcji ai_parse_document w Databricks. Pokażę, jak wykorzystać potęgę wbudowanych modeli AI, aby drastycznie uprościć architekturę typu "Document Intelligence" i przenieść ciężar przetwarzania z customowego kodu Python na natywne funkcje platformy.
Kluczowe punkty sesji:
Od KOR do Natywności: Krótkie podsumowanie drogi, jaką przeszliśmy w technikach ekstrakcji informacji.
Deep Dive w ai_parse_document: Architektura i możliwości nowej funkcji w środowisku Databricks SQL oraz Notebookach.
Praktyczny warsztat: Jak w kilku liniach kodu przekształcić skomplikowane układy dokumentów w czyste tabele Delta.
Wydajność i Koszty: Porównanie podejścia natywnego z metodami prezentowanymi na poprzednich sesjach – kiedy wybrać którą drogę? - Czy rodzaj procesora ma znaczenie w Databricks. Czyli o wydajność i kosztach różnych typów CPU.
Kto z Was nie zastanawiał się wielokrotnie jak duży wpływ na szybkość i koszt w Databricks ma wybór rodzaju procesora. Ostatnio zalecane są AMD ale czy starszy Intel może wygrać ceną. A może nadszedł już czas ARM i najlepszym wyborem będzie procesor z telefonu w odsłonie Azure Cobalt. Będzie trochę benchmarków, parę wykresów i garść księgowości.
➡️ BIO prelegentów:
- Konrad Kukulski
Konrad Kukulski is an experienced ML Architect and Senior Data Engineer with a strong focus on machine learning, AI, and data engineering, particularly in cloud environments like Azure and AWS. - Piotr Waszkiewicz
Na co dzień zajmuję się Databricks zazwyczaj w ujęciu migracji systemów ze starszych platform. Doświadczenie zdobywałem głównie w instytucjach finansowych dzielących się na duże i większe. Zainteresowanie sprzętem zostało mi jeszcze z czasów fascynacji grami i overclockingiem. W wolnych chwilach tworzę instalacje artystyczne.
Dziękujemy partnerom grupy za wsparcie - dzięki nim możemy spotykać się w tak fajnym miejscu :)
* Elitmind
* Twoja firma? :)
Gdyby i Twoja firma szukała okazji do współpracy to zachęcamy do kontaktu :)
Pozdrawiamy serdecznie,
Rafał Zakrzewski
Robert Tomaszek




