Ce groupe a pour objectif de fédérer une communauté de personnes, souhaitant découvrir et partager les meilleures recettes à utiliser dans les compétitions de Machine Learning organisées par Kaggle (feature engineering, hyper paramètres, cross validation, stacking, ensemble, blending, 'eXtreme Gradient Boosting', etc).
Comme convenu lors de l'atelier #1, deux ateliers auront lieu en parallèle :
Le premier atelier sera consacré à la compétition Titanic (https://www.kaggle.com/c/titanic). Idéal pour mettre en pratique une grande partie des techniques du Data Scientist : feature engineering, gestion de l'imputation des valeurs manquantes, réalisation de modèles non-linéaires, cross-validation, traitement des valeurs textuelles, etc.
Le deuxième atelier sera dédié au traitement d'images où deux compétitions Kaggle seront abordées :
• Digit Recognizer (https://www.kaggle.com/c/digit-recognizer): identification de caractère manuscrit : comment manipuler une image, comment appliquer un algorithme de classification sur une image, SVM, ...
Vous devez être muni d’un ordinateur portable relativement récent et avoir installé Anaconda : distribution Python (version 2.7) libre intégrant directement un grand nombre de packages pour la Data Science.