Data Processing – jak z danych wydobyć użyteczne informacje?

To wydarzenie już się odbyło

64 – wzięło udział

ING Bank Slaski, Katowice Branch

Sokolska 34 · Katowice

Jak nas znaleźć

Spotykamy się w budynku centrali ING, a dokładnie w Innovation Lab - przeszklonej przestrzeni na parterze na przeciwko kawiarni "po prostu". Zapraszamy!

Zdjęcie miejsca wydarzenia

Szczegóły

Cześć :)
Zapraszamy Was na meetup dotyczący Data Processing.

=========

Tematy:

"Presto: SQL-on-Anything"
zaprezentują Wojciech Biela i Piotr Findeisen

"Fast Data z wykorzystaniem Apache Flink”
zaprezentuje Szymon Szczypiński

"Przetwarzanie danych przy użyciu Sparka"
zaprezentuje Krzysztof Domogała

=========

Ad. 1 (prezentacja będzie w języku polskim)
Presto (http://prestosql.io) is an open source distributed SQL query engine for running interactive analytic queries against data sources of all sizes ranging from gigabytes to petabytes.

The talk will be a gentle introduction to Presto and its ability to query virtually any data source via it’s connector interface. Wojciech and Piotr will present some of the use cases of Presto querying various data sources, discuss the existing connectors in Presto, and describe the backing architectural concepts.

Ad. 2
Apache Flink to framework umożliwiający przetwarzanie danych w postaci strumienia eventów. W trakcie spotkania zostanie zaprezentowana architektura Flinka oraz możliwości jakie daje framework w kontekście strumieniowego przetwarzania danych.

Ad. 3
Dane to paliwo napędzające data science. Każdy model zaczyna się od żmudnego procesu pozyskania, transformacji oraz analizy danych. Python udostępnia świetne narzędzia do żonglowania danymi, ale nie każdy wolumen daje się łatwo przetworzyć Pandasem lub Numpym. Na szczęście na przeciw tym potrzebom wychodzi Spark, który umożliwia wydajne przetwarzanie dużych zbiorów danych w środowiskach rozproszonych (np. Hadoop). Podczas prezentacji zostanie zaprezentowany zarys możliwości jakie badaczom danych daje Spark.

=========

Bio:

Wojciech Biela - a co-founder of Starburst and is responsible for product development. He has a background of over 13 years of building products and running engineering teams. Previously Wojciech was the Engineering Manager at the Teradata Center for Hadoop, running the Presto engineering operations in Warsaw, Poland. Prior to that, back in 2011, he built and ran the Polish engineering team, a subsidiary of Hadapt Inc., a pioneer in the SQL-on-Hadoop space. Hadapt was acquired by Teradata in 2014. Earlier, Wojciech built and lead teams on multi-year projects, from custom big e-commerce & SCM platforms to PoS systems. Wojciech holds a M.S. in Computer Science from the Wroclaw University of Technology.

Piotr Findeisen - a Software Engineer and a founding member of the Starburst team. He contributes to the Presto code base and is also active in the community. Piotr has been involved in the design and development of significant features like the cost-based optimizer (still in development), spill to disk, correlated subqueries and a plethora of smaller enhancements. Before Starburst, Piotr worked at Teradata and was the top external Presto committer of the year. Prior to that, he was a Team Leader at Syncron (provider of cloud services for supply chain management), responsible for their product's technical foundation and performance. Piotr holds a M.S. in Computer Science (and a B.Sc. in Mathematics) from University of Warsaw.

Szymon Szczypiński - projektant i developer w zespole Aplikacji Integracyjnych. Aktualnie skupia się głównie na badaniu jak można wykorzystać Flinka w predyktywnym monitoringu. W wolnych chwilach lubi trenować umysł rozwiązując zagadki, a ciało jeżdżąc na rowerze.

Krzysztof Domogała - Senior Expert Data Scientist w zespole Data Science w Pionie Tech. Entuzjasta Sparka oraz innych narzędzi pozwalających na sprawne przetwarzanie dużych zbiorów danych. Lubi przecierać szlaki i bawić się nowymi narzędziami. Analizę danych zawsze wykonuje z kubkiem herbaty.