Skip to content

Details

Résumé :
De manière habituelle, mettre en place un pipeline de machine learning consiste à construire un jeu de données et à entrainer un modèle sur celui-ci. Cette pratique, qu'on appelle "batch learning", a l'inconvénient de nécessiter une puissance de calcul proportionnelle à la quantité de données. De plus, il faut généralement ré-entrainer le modèle depuis le départ dès que de nouvelles données arrivent. Ces deux pépins freinent bien souvent la mise en place du pipeline.

Une autre alternative consiste à faire du "online learning", où on utilise des modèles qui apprennent au fur et à mesure que les données arrivent. Cela mène à des pipelines qui nécessitent très peu de puissance de calcul et qui s'adaptent au cours du temps.

Dans ce talk nous présenterons le contexte, nous détaillerons certains algorithmes, et nous discuterons des avantages et des inconvénients (spoiler: il y en a peu!) de la seconde approche. Enfin nous présenterons une toute nouvelle librairie d'online learning qui a ses origines à Toulouse.

Max Halford est doctorant à l'IRIT et à l'IMT, spécialisé dans les sujets de l'optimisation de requête base de données et machine learning. Il est également Kaggle Master.

Members are also interested in