Przejdź do treści

Szczegóły

Kolejne spotkanie Data Science Warsaw odbędzie się we wtorek 12tego marca, o godzinie 18tej, na Wydziale MiNI PW (sala 107). W programie:

  1. Kategoryzacja tekstów - Rafał Prońko

Kategoryzacja tekstów ma wiele zastosowań: kategoryzacja ogłoszeń na portalach, kategoryzacja wiadomości, wykrywanie spamu, wykrywanie mowy nienawiści, standaryzacja nazw stanowisk pracy,... W moim wystąpieniu poruszę kwestie kategoryzacji tekstu na przykładzie standaryzacji nazw stanowisk pracy, powiem czemu w ogóle stanowiska, po co standaryzować, jakie podejścia wykorzystałem i do czego taka standaryzacja może być przydatna.

Rafał Prońko - Data Scientist od ponad 5 lat głównie związany z NLP: kategoryzacja ogłoszeń, strukturyzacja tekstu, normalizacja tekstu, lokalizacja, przewidywanie długości pozostania w jednej pracy. Procowałem także nad przetwarzaniem obrazów: rozpoznawaniem twarzy, wykrywaniem spoofingu, wykrywanie zabrudzeń, rozpoznawanie produktów na półkach. Jako Data Scientist pracowałem tez przy projekcie blockchain: tworzenie cryptoeconomy i symulacja zachowań użytkowników.

  1. Automatyczne przetwarzanie języka polskiego - z perspektywy organizatorów konkursu PolEval. Łukasz Kobyliński

Ostatnie lata przyniosły szybki rozwój obszaru przetwarzania języka naturalnego (NLP). Stało się tak, między innymi, dzięki postępowi technologicznemu, ilości dostępnych danych i nowym metodom uczenia maszynowego. Wydaje się, że choć w obszarze automatycznego przetwarzania języka polskiego postęp również nastąpił, to nie był on tak szybki, jak w przypadku języka angielskiego. W trakcie tego wystąpienia chciałbym omówić czynniki, które mogły wpłynąć na ten stan rzeczy.

Mając na uwadze te wyzwania, rozpoczęliśmy w 2017 roku organizację konkursu PolEval (http://poleval.pl/). Jest to konkurs skierowany do indywidualnych badaczy oraz zespołów, którego celem jest:

  • wypracowanie ustalonych procedur ewaluacji systemów rozwiązujących poszczególne zadania w NLP,
  • wytworzenie anotowanych zbiorów danych, które mogą zostać wykorzystane do uczenia i ewaluacji systemów,
  • obiektywne porównanie systemów realizujących odpowiednie zadania w zakresie przetwarzania języka naturalnego,
  • zbliżenie do siebie badaczy ze środowisk naukowych i biznesowych oraz wymianę wiedzy między nimi,
  • popularyzację zagadnień NLP w kontekście języka polskiego.

W trakcie wystąpienia chciałbym też podsumować rezultaty ostatnich dwóch edycji tego konkursu oraz opowiedzieć o perspektywach i możliwościach uczestnictwa w tegorocznej edycji PolEvalu.

Łukasz Kobyliński - Chief Science Officer w Sages, Data Scientist w SigDelta oraz adiunkt w Instytucie Podstaw Informatyki PAN, gdzie prowadzi projekty w Zespole Inżynierii Lingwistycznej. Członek Rady Programowej studiów podyplomowych Big Data realizowanych przez firmę Sages oraz Politechnikę Warszawską oraz opiekun merytoryczny bootcampów Kodołamacz.pl. Od wielu lat zajmuje się analizą danych i uczeniem maszynowym, początkowo w odniesieniu do obrazów, a obecnie w zastosowaniu do przetwarzania języka naturalnego. Szczególnie zainteresowany lingwistyką korpusową, analizą tekstu na poziomie morfoskładniowym i semantycznym, a także efektywnym przetwarzaniem dużych zbiorów danych.

Zachęcamy też do subskrypcji newslettera (https://tinyletter.com/datascience ), w którym informujemy o ciekawych wydarzeniach dotyczących Data Science w Warszawie i Polsce.

Pokrewne tematy

Może ci się również spodobać