[Data Science] #2 - Word2Vec dla Polskiego Internetu + Elastic Search w Allegro

This is a past event

227 people went

Location image of event venue

Details

Akka i word2vec, czyli jak nauczyć sieć neuronową polskiego internetu

Wojciech Stokowiec

Na spotkaniu przybliżmy popularną ostatnio grupę algorytmów służących do uzyskiwania wektorowej reprezentacji słów, znanych pod zbiorową nazwą word2vec. Na wstępnie powiemy trochę, co to jest ta wektorowa reprezentacja i po co komu ona w ogóle jest. Pokażemy, jak wygląda topologia najpopularniejszych modeli (uwaga: mogą pojawić się gradienty), jakie są ich właściwości oraz powiemy dlaczego Skynet jest już blisko.

W drugiej części spotkania opowiemy o tym, jak przy pomocy framework'u Akka i archiwum internetowego Common Crawl stworzyliśmy największy na świecie* korpus języka polskiego i jakie wiązały się z tym problemy.

Na koniec zaprezentujemy czego nauczył się word2vec na polskim internecie a co mu umknęło.

*) O dziwo, są korpusy języka polskiego stworzone poza granicami naszego kraju i to wcale niemałe.

Elasticsearch w ekosystemie Allegro

Andrzej Wisłowski, Paweł Bobruk

Na wstępie chcemy opowiedzieć o teorii oraz krótko o architekturze Elasticsearcha. Wyjaśnimy czym jest wyszukiwarka, jak działa wyszukiwanie pełnotekstowe oraz agregracje. Opowiemy też o nowościach w wersji 2.0.

W drugiej części przedstawimy kilka najciekawszych przypadków użycia Elastic’a w Allegro. Opowiemy o wykorzystywanych schematach indeksów i sposobach na optymalizacje, indeksach time-series, routingu dokumentów oraz problemie z dużą ilością aktualizowanych dokumentów.

Zakończymy informacjami o naszym setupie klastrów w środowisku cloudowym, monitoringu i backupach.