Text(e) & +


Details
We are happy to announce our first joint event with Big Data Montréal which comprise a main presentation (in French) and some flash talks (language TBD by the presenters).
Nous sommes heureux de vous annoncer ce premier événement conjoint avec Big Data Montréal. Il y aura une présentation principale (en français) et quelques présentations éclaires (langue à la discrétion des présentateurs).
Main talk
Title : Iterative information extraction on big textual data with Spark
Speaker : Konstantinos Lambrou-Latreille, PhD student at Polytechnique de Montréal
Flash talks
Title : Climate data analysis with SciSpark
Speaker : Jean-Francois Rajotte
Abstract: The SciSpark project introduces the Scientific Resilient Distributed Dataset (sRDD), a distributed-computing array structure which supports iterative scientific algorithms for multidimensional data. As a proof of concept, I will construct geolocalized time series of precipitation and temperature and classify each grid point with K-Means. This exclusively data-driven classification will then be compared with classical man-made climate classification rules.
More to come
Présentation principale
Titre: Extraction itérative de connaissances sur de grandes données textuelles avec Spark
Présentateur: Konstantinos Lambrou-Latreille, étudiant au doctorat à l'École Polytechnique de Montréal.
Description: Mon projet de recherche concerne l'extraction de connaissances telles que des instances de classes (Ville, Pays, JoueurProfessionel, ÉquipeSportive, etc.) et des instances de relations (villeEstSituéDansPays, joueurJouePourÉquipe, etc.). Des exemples d'instances de classes sont Montréal, Canada, Maurice Richard, Canadiens de Montréal. Des exemples d'instances de relations sont (Montréal, Canada) et (Maurice Richard, Canadiens de Montréal). Afin de les extraire, j'emploie un algorithme qui découvre ces instances de façon itérative. Dans le domaine de l'extraction d'information, ce type d'approche s'appelle Bootstrapping (un algorithme semi-supervisé). Afin de fonctionner, il a besoin d'un corpus en entrée. Je travaille actuellement avec Wikipédia, mais dans l'objectif de le faire fonctionner sur Clueweb12 (environ 50x plus grand que Wikipédia). Dans cette présentation, je vais brièvement introduire l'algorithme Bootstrapping, je vais passer à travers de mon implémentation sur Apache Spark, les défis que j'ai rencontrés et analyser le temps d'exécution.
Présentations éclaires
Titre : Analyse de données climatique avec SciSpark
Autres à venir

Text(e) & +