Paris Datageeks: Big Semantic Data! Machine Learning on Katascale! Spark! Cuda!

Details
What are the current frontiers of big data? Real world case studies and perspectives on where this is all going in 2013. What are the use-cases beyond marketing and ecommerce? What does big data mean for culture and politics?
On the technical side, let's see some big Semantic Data (hey, it's hard enough to do on a small scale...)! Text mining! and Machine Learning on Katascale! Spark! Cuda (and generally using GPUs for data crunching)! Real time aggregates.
So here are (some) of the sessions....
Fast Big Data Processing with Spark
Sam Bessalah
Dans la pléthore des technologies de traitement de données à large échelle et très large volumétrie, Hadoop est souvent mentionné comme La solution ultime. Cependant ce dernier est avant tout un système de batch distribué, et n'est pas idéal pour des traitements analytiques comme ceux de machine learning avancé. Spark, est un framework de traitement de données distribué à la fois en mémoire et sur disk. Il a été pensé en premier lieu pour du machine learning, et s'avère être un parfait complément pour Hadoop.
Delicious Data
Antoine Durieux
Mixing the semantic web, graph databases and food
Machine Learning en parallele sur EC2 avec Python
Olivier Grisel
Vous présentera quelques stratégies de parallelisation des traitements utilisés lors de l'apprentissage de modèles statistiques avec des outils en Python tels que scikit-learn (pour la partie apprentissage), IPython pour la gestion du calcul en cluster en mode interactif et StarCluster pour le provisioning d'un petit cluster EC2.
On parlera notamment de: Cross-Validation, Ensembles de modéles, MapReduce vs MPI AllReduce, memory mapping, EC2 spot-instances. Olivier sera ravi de troller sur Spark, Hadoop, YARN et Python.
Elastic Search as your bigdata solution
David Pilato
Vous utilisez encore des requêtes SQL pour faire des recherches ? Vos utilisateurs vous reprochent de ne pas pouvoir chercher sur toutes les rubriques ? Votre temps de réponse moyen est supérieur à la demi-seconde avec seulement quelques millions de documents ? Il vous faut 3 jours pour produire des statistiques sur vos données ? Vous rêvez d’offrir une recherche "à la google" sur les données de votre SI ? Ne cherchez plus ! Cette conférence est faite pour vous.
Social Business Intelligence avec MongoDB et ElasticSearch
Renaud Boutet et Emmanuel Gueidan
Agrégations multidimensionnelles avec MongoDB et d'ElasticSearch le cas d'usage de Focusmatic.
Riak Search
Yann Schwartz
Rapides retours d'expérience de Riak Search en production.
Présentation pragmatique de R
François Guillem
Qu'est ce que R ? Pourquoi s'en servir ? Quelles en sont limites ?
Initiation au webscrapping avec R
François Guillem
apprenez à récupérer les données d'un site web de manière automatique
(Big) Data forever
Jonathan Winandy
Présentation et démonstration des avantages de l'immutabilité, de l'idempotence et des formats riches pour le stockage et le traitement de données à petite et à grande échelle.
Content analytics for big data
François-Régis Chaumartin
La Big Data serait à 80% constituée de données non structurées - du texte .
L'analyse de contenu est la seule approche qui permet de transformer cette donnée brute en information exploitable. La présentation fera le point sur l'état de l'art scientifique et technologique dans ces domaines.
Cortical.io (à confirmer)
Ori Pekelman
Rapide présentation d'un API sémantique 100% automatique
The meetup will be a mix between a barcamp style event (with very short presentations), and some longer pre-planned conferences.
The meetup will have two phases (late afternoon 16h00–18h30 + 18h30–20h30) to cater for those that cannot arrive early.
If you wish to make a presentation please contact the organizers.
If you want, you can also contact us for sponsoring (or no Pizza!)
Paris Datageeks: Big Semantic Data! Machine Learning on Katascale! Spark! Cuda!