#19. Koniec z bałaganem w Hadoop-owym klastrze

Name: #19. Koniec z bałaganem w Hadoop-owym klastrze
Start: 2015-08-26T18:00:00+02:00
End: 2015-08-26T19:30:00+02:00
Location: Wydział MIMUW (sala 5440)

Hosted by Adam K.

Warsaw Data Tech Talks (Poland)

Details

Tytuł: Koniec z bałaganem w Hadoop-owym klastrze

Prelegent: Adam Kawa (GetInData)

Zapowiedź: Właściwe zarządzanie danymi i harmonogramowanie procesów to wyzwania, które są często lekceważone przez wiele firm, nawet tych dla których duże dane mają krytyczne znaczenie.

Na krótką metę takie podejście może ujść płazem, jednak w miarę wzrostu klastra chaos staję się być trudny do opanowania, klaster zaczyna przypominać stajnię Augiasza, a sam Sherlock Holmes nie jest w stanie rozwikłać zagadki, gdzie znajduje się poszukiwany zbiór danych i kto z niego korzysta. Nawet jednak, gdy zdasz sobie sprawę z istnienia problemu, możesz nie dostrzec, że skuteczne rozwiązania znajdują się tak blisko...

W czasie prezentacji, opowiemy o tym jak uprościliśmy zarządzanie danymi i procesami w klastrze Hadoop za pomocą pożytecznych, choć póki co jeszcze mniej używanych, narzędzi open-source. Przyjdź i przekonaj się jak Apache Falcon, HCatalog oraz Hive i kilka prostych technik pomogą Ci przy utrzymaniu porządku na klastrze i sprawnym poruszaniu się wśród ogromu danych, procesów i związków między nimi.

Poruszymy takie kwestie jak: tagowanie i wyszukiwanie zbiorów danych (data discovery), automatyczne usuwanie niepotrzebnych plików (data retention), wizualizowanie rodowodu danych (data lineage), łatwe migrowanie się między formatami danych, harmonogramowanie i monitorowanie procesów, przetwarzanie spóźniających się danych (late data arrival), backup oraz odtwarzanie awaryjne (BDR) itp.

Prezentacja ta będzie rozszerzeniem prezentacji, którą wspólnie wygłosili Adam Kawa i Piotr Krewski na lutowej konferencji Big Data Tech w Warszawie (była ona jedną z trzech najwyżej ocenionych prezentacji na tej konferencji).

Bio: Adam jest fanem Hadoop od 2010 roku, kiedy to zaimplementował pierwszą aplikację w paradygmacie MapReduce. Od tego czasu pracował z technologiami Big Data m.in. w Netezza, na Uniwersytecie Warszawskim (ICM), Spotify (gdzie przez 2 lata był kluczowym członkiem zespołu Hadoop, który utrzymywał i rozwijał największy Hadoop-owy klaster w Europie) oraz jako autoryzowany szkoleniowiec Cloudera. Obecnie Adam pracuje jako konsultant i instruktor w GetInData, gdzie pomaga innym firmom stawić czoła wyzwaniom związanym z przetwarzaniem dużych ilości danych przy użyciu popularnych technologi z ekosystemu Hadoop i okolic np. Spark, Kafka.

Od kilku lat, Adam regularnie bloguje o technologiach Big Data oraz wygłasza prelekcje na międzynarodowych konferencjach takich jak Strata Hadoop World, Hadoop Summit, Big Data Tech i inne. Ponadto Adam jest współzałożycielem grup użytkowników Hadoop w Warszawie (WHUG) i Sztokholmie (SHUG).

Notka dodatkowa: Dzięki uprzejmości firmy GetInData (http://getindata.com) na spotkaniu będzie też poczęstunek :) Prosimy o zadeklarowanie uczestnictwa na stronie spotkania, dzięki czemu będziemy mogli oszacować potrzebną liczbę pizz i napojów.

Serdecznie zapraszamy!

WHUG

Warsaw Data Tech Talks (Poland)

#19. Koniec z bałaganem w Hadoop-owym klastrze

Warsaw Data Tech Talks (Poland)

Details

Related topics

You may also like