Skip to content

Renforcement et raisonnement : Atelier sur les modèles de langage (LLMs)

Photo of royam0820
Hosted By
royam0820
Renforcement et raisonnement : Atelier sur les modèles de langage (LLMs)

Details

Cette session Meetup explore l'algorithme GRPO (Group Relative Policy Optimization) développé par DeepSeek. Au programme pour cette session :

  • Introduction à DeepSeek et GRPO : Présentation de DeepSeek, pionnier en intelligence artificielle, et de son algorithme GRPO, conçu pour améliorer le raisonnement des modèles de langage via l'optimisation des politiques d'apprentissage par renforcement.
  • Exploration via un notebook : permettant des démonstrations pratiques pour comprendre comment GRPO est implémenté pour entraîner des modèles de langage orientés vers le raisonnement.
  • Discussions interactives : Échanges pour des applications potentielles de GRPO au-delà des mathématiques, en envisageant des cas d'utilisation variés et innovants.

Que vous soyez chercheur, praticien ou simplement curieux des dernières avancées en IA, votre participation enrichira nos discussions !

Photo of Fastai - FR - Practical Deep Learning - Groupe d'Etude group
Fastai - FR - Practical Deep Learning - Groupe d'Etude
See more events