Cas d'usages avec R

Name: Cas d'usages avec R
Start: 2017-03-15T18:45:00+01:00
End: 2017-03-15T21:45:00+01:00
Location: Ingima

Hosted By

Diane B. et 3 autres

Détails

Bonjour à tous !

Envie de jouer les Experts sans être à Miami ? De croiser des milliers de fichiers similaires sans vous appeler Abbi ? Ou tout simplement de travailler avec des jeux de données de recensement en OpenData sans vous appeler euh… François ? Cette rencontre est faite pour vous !

Nous serons accueilli en plein centre de Paris, dans les locaux d’INGIMA : http://www.ingima.com/#contacts

Au programme, 3 présentations, suivi du traditionnel moment d'échange/networking/pizza/bière.

Arkel, Hervé et Solène, enquêteurs/analystes aux ministères de la Justice et des Finances, et utilisateurs récents de R, nous présenterons un case-study d'usage de R, pour l'analyse forensic d'une boite mail :

Statistiques sur les dates, les adresses IP, les domaines, mais également les relations entre les utilisateurs par le biais des graphes, et extraction sémantique.…

Les packages utilisés sont assez classiques pour certains (Lubridate, Tidyr, Ggplot2, notamment), et d'autres un peu plus exotiques (Rgexf, sqldf...).

Cette présentation, également destinée à un public débutant, abordera la question du choix de cet outil, ses avantages mais aussi les difficultés et les limites que nous avons rencontré.

Patrice Kiener, de la société InModelia, présentera la fusion de centaines voire milliers de fichiers .csv similaires avec les packages readbulk, DataLoader et un code personnel. Il montrera les performances en écriture et lecture du fichier résultant selon le format de stockage utilisé : .csv, .csv.xz, .rda("gzip"), .rda("xz"), feather.

Joel Gombin, de datactivi.st (http://datactivi.st/), qui nous parlera de MonetDB : R est limité par le fait qu'il travaille avec les données en mémoire vive. On peut bien sûr l'interfacer avec des infrastructures orientées big data (Hadoop, Spark...), mais c'est souvent inutile. MonetDBLite, une base de données orientée colonnes et qui ne nécessite aucun paramétrage préalable, offre une solution élégante pour travailler avec des jeux de données de taille moyenne (quelques dizaines ou centaines de millions de lignes) très facilement, de manière intégrée au tidyverse. Joël présentera deux cas d'usage de monetdblite : l'utilisation des bases de données détail du recensement, et l'utilisation de la base de données SIRENE des entreprises françaises.

Venez nombreux !