#19. Koniec z bałaganem w Hadoop-owym klastrze


Details
Tytuł: Koniec z bałaganem w Hadoop-owym klastrze
Prelegent: Adam Kawa (GetInData)
Zapowiedź: Właściwe zarządzanie danymi i harmonogramowanie procesów to wyzwania, które są często lekceważone przez wiele firm, nawet tych dla których duże dane mają krytyczne znaczenie.
Na krótką metę takie podejście może ujść płazem, jednak w miarę wzrostu klastra chaos staję się być trudny do opanowania, klaster zaczyna przypominać stajnię Augiasza, a sam Sherlock Holmes nie jest w stanie rozwikłać zagadki, gdzie znajduje się poszukiwany zbiór danych i kto z niego korzysta. Nawet jednak, gdy zdasz sobie sprawę z istnienia problemu, możesz nie dostrzec, że skuteczne rozwiązania znajdują się tak blisko...
W czasie prezentacji, opowiemy o tym jak uprościliśmy zarządzanie danymi i procesami w klastrze Hadoop za pomocą pożytecznych, choć póki co jeszcze mniej używanych, narzędzi open-source. Przyjdź i przekonaj się jak Apache Falcon, HCatalog oraz Hive i kilka prostych technik pomogą Ci przy utrzymaniu porządku na klastrze i sprawnym poruszaniu się wśród ogromu danych, procesów i związków między nimi.
Poruszymy takie kwestie jak: tagowanie i wyszukiwanie zbiorów danych (data discovery), automatyczne usuwanie niepotrzebnych plików (data retention), wizualizowanie rodowodu danych (data lineage), łatwe migrowanie się między formatami danych, harmonogramowanie i monitorowanie procesów, przetwarzanie spóźniających się danych (late data arrival), backup oraz odtwarzanie awaryjne (BDR) itp.
Prezentacja ta będzie rozszerzeniem prezentacji, którą wspólnie wygłosili Adam Kawa i Piotr Krewski na lutowej konferencji Big Data Tech w Warszawie (była ona jedną z trzech najwyżej ocenionych prezentacji na tej konferencji).
Bio: Adam jest fanem Hadoop od 2010 roku, kiedy to zaimplementował pierwszą aplikację w paradygmacie MapReduce. Od tego czasu pracował z technologiami Big Data m.in. w Netezza, na Uniwersytecie Warszawskim (ICM), Spotify (gdzie przez 2 lata był kluczowym członkiem zespołu Hadoop, który utrzymywał i rozwijał największy Hadoop-owy klaster w Europie) oraz jako autoryzowany szkoleniowiec Cloudera. Obecnie Adam pracuje jako konsultant i instruktor w GetInData, gdzie pomaga innym firmom stawić czoła wyzwaniom związanym z przetwarzaniem dużych ilości danych przy użyciu popularnych technologi z ekosystemu Hadoop i okolic np. Spark, Kafka.
Od kilku lat, Adam regularnie bloguje o technologiach Big Data oraz wygłasza prelekcje na międzynarodowych konferencjach takich jak Strata Hadoop World, Hadoop Summit, Big Data Tech i inne. Ponadto Adam jest współzałożycielem grup użytkowników Hadoop w Warszawie (WHUG) i Sztokholmie (SHUG).
Notka dodatkowa: Dzięki uprzejmości firmy GetInData (http://getindata.com) na spotkaniu będzie też poczęstunek :) Prosimy o zadeklarowanie uczestnictwa na stronie spotkania, dzięki czemu będziemy mogli oszacować potrzebną liczbę pizz i napojów.
Serdecznie zapraszamy!
WHUG

#19. Koniec z bałaganem w Hadoop-owym klastrze