[Data Science] #2 - Word2Vec dla Polskiego Internetu + Elastic Search w Allegro

![[Data Science] #2 - Word2Vec dla Polskiego Internetu + Elastic Search w Allegro](https://secure.meetupstatic.com/photos/event/c/d/c/5/highres_512392677.jpeg?w=750)
Details
Akka i word2vec, czyli jak nauczyć sieć neuronową polskiego internetu
Wojciech Stokowiec
Na spotkaniu przybliżmy popularną ostatnio grupę algorytmów służących do uzyskiwania wektorowej reprezentacji słów, znanych pod zbiorową nazwą word2vec. Na wstępnie powiemy trochę, co to jest ta wektorowa reprezentacja i po co komu ona w ogóle jest. Pokażemy, jak wygląda topologia najpopularniejszych modeli (uwaga: mogą pojawić się gradienty), jakie są ich właściwości oraz powiemy dlaczego Skynet jest już blisko.
W drugiej części spotkania opowiemy o tym, jak przy pomocy framework'u Akka i archiwum internetowego Common Crawl stworzyliśmy największy na świecie* korpus języka polskiego i jakie wiązały się z tym problemy.
Na koniec zaprezentujemy czego nauczył się word2vec na polskim internecie a co mu umknęło.
*) O dziwo, są korpusy języka polskiego stworzone poza granicami naszego kraju i to wcale niemałe.
Elasticsearch w ekosystemie Allegro
Andrzej Wisłowski, Paweł Bobruk
Na wstępie chcemy opowiedzieć o teorii oraz krótko o architekturze Elasticsearcha. Wyjaśnimy czym jest wyszukiwarka, jak działa wyszukiwanie pełnotekstowe oraz agregracje. Opowiemy też o nowościach w wersji 2.0.
W drugiej części przedstawimy kilka najciekawszych przypadków użycia Elastic’a w Allegro. Opowiemy o wykorzystywanych schematach indeksów i sposobach na optymalizacje, indeksach time-series, routingu dokumentów oraz problemie z dużą ilością aktualizowanych dokumentów.
Zakończymy informacjami o naszym setupie klastrów w środowisku cloudowym, monitoringu i backupach.

[Data Science] #2 - Word2Vec dla Polskiego Internetu + Elastic Search w Allegro