Skip to content

Data Science Warsaw #24 NLP

Photo of Dominik Batorski
Hosted By
Dominik B. and B.Twardowski
Data Science Warsaw #24 NLP

Details

Zapraszamy na Data Science meetup poświęcony przetwarzaniu języka naturalnego 21 marca o 18:00 w sali 316 w BUW na ul. Dobrej 56/66. Poniżej szczegółowy plan prezentacji oraz kilka słów o samych prelegentach.

  1. "Czas na Hejt" - Badania zachowań użytkowników na forach internetowych

Dyskusje na pod artykułami na tematy polityczne na forum Onet.pl - oraz związane z e-Spotrem na stronie hltv.org przyciągają ludzi o skrajnych opiniach, często wyrażających się bardzo emocjonalnie. W pracy, wykorzystując zbiór ponad 5 milionów komentarzy badaliśmy, czy informacja o rozkładzie czasowym w jakim użytkownicy piszą posty pozwala na wykrycie, czy użytkownik pisze bardziej lub mniej emocjonalne teksty - i czy można zakwalifikować go do grupy "profesjonalnych trolli". Stworzony w wyniku ręcznej analizy części danych automatyczny algorytm, wykorzystujący - oprócz rozkładu czasowego - także proste własności sieciowe pozwolił na wydzielenie interesującej grupy, zarówno w zbiorze na podstawie którego został stworzony jak i zbiorach testowych.

Antoni Sobkowicz - Programista, naukowiec, student studiów doktoranckich na Politechnice Warszawskiej. W pracy naukowej zajmuje się badaniem interakcji użytkowników w Internecie, a w czasie wolnym dziubie w gamedevie.

  1. Wybrane zastosowania głębokiego uczenia maszynowego (deep learning) w przetwarzaniu języka naturalnego (nlp)

W pracy z językiem naturalnym (np. polskim) korzystamy często z metod oznaczania sekwencji (sequence labeling), przykładowo w celu rozpoznawania wielowyrazowych ciągów słów określonego typu (np. wielowyrazowych nazw własnych, named entity recognition). Coraz większą popularnością cieszą się w tym kontekście metody głębokiego uczenia maszynowego (deep learning) oraz podejścia hybrydowe, jak przykładowo połączenia deep learningu z klasycznymi metodami stosowanymi od ponad dekady, jak warunkowe pola losowe (Conditional Random Fields). Przedstawię wyniki eksperymentów uzyskanych z algorytmami tego typu ("deep crf") w dwóch praktycznych zastosowaniach: w problemach oznaczania wydźwięku (sentiment analysis) oraz rozpoznawania nazw własnych.

dr Aleksander Wawer - lider zespołu Language Analytics w grupie Advanced NLP, Samsung R&D Institute Poland. Adiunkt w Instytucie Podstaw Informatyki PAN.

Serdecznie zapraszamy!

Photo of Data Science Warsaw group
Data Science Warsaw
See more events
Biblioteka Uniwersytecka w Warszawie
ul. Dobra 56/66 · Warsaw