Skip to content

131. spotkanie Data Community Krakow

Photo of Michal Sadowski
Hosted By
Michal S.
131. spotkanie Data Community Krakow

Details

Zapraszamy na 131. spotkanie krakowskiej grupy Data Community.

KIEDY
28 maja (środa) - 18:00

GDZIE
Wyższa Szkoła Ekonomii i Informatyki w Krakowie
Sala: Praga

AGENDA
18:00 – 18:10 Rozpoczęcie spotkania, sprawy organizacyjne
18:10 – 19:20 Databricks - Scala czy Python - jak to jest że można pisać w obu językach i co jest szybsze - Szymon Karpęcki
19:20 – 19:30 Zakończenie spotkania

ABSTRAKT
Databricks - Scala czy Python - jak to jest że można pisać w obu językach i co jest szybsze -
Na sesji omówię testy porównujące wydajność różnych operacji w Databricksie (de facto Sparku) ze szczególnym uwzględnieniem UDFów. Wyniki są całkiem interesujące i potwierdzają teorię stojącą za implementacją poszczególnych języków jak i samego Sparka.
1. Latency Numbers every programer should know - klasyczna tabelka do której będę się odwoływał wyjaśniając jakiej skali są różnice między wykonaniem w pamięci albo cache procesora a np przesłaniem po sieci.
2. Przypomnienie jak działają języki programowania - kompilowane do kodu maszynowego i bajtowego oraz interpretowane. Później na tej podstawie wskaże potężną różnicę dla UDFów pisanych w Pythonie i Scali.
3. Podstawy na których opiera się sam Spark i na czym polega komunikacja między Pythonem i JVM w przypadku PySparka (Py4J).
4. Wyniki porównujące DataFrame API dla Scali i Pythona i dlaczego w tym kontekście de facto nie ma żadnej różnicy.
5. Wyniki porównujące różne rodzaje UDFów z diagramem obrazującym sposób w jaki są one wykonywane przez silnik i jak dane oraz instrukcje są przesyłane między JVMem a Pythonem.
6. Podsumowanie i rekomendacje.
7. Jak zostanie czas to prezentacja kodu i metodologii testów.

BIO
Szymon Karpęcki - Data Platform Engineer - obecnie pracujący w Databricksach rozkminiacz tematów wszelakich. Doświadczenie z klasycznie rozumianego software engineeringu stara się wdrażać w codzienną pracę z danymi. Poza tym zawodowo zainteresowany budowaniem platform end-to-end - od sieci po pipeline. Prywatnie trener (były zawodnik) futbolu amerykańskiego.

Photo of Data Community Krakow group
Data Community Krakow
See more events