Skip to content

DeepSeek : More Heads, Less Pain

Photo of Jackie Boscher
Hosted By
Jackie B.
DeepSeek : More Heads, Less Pain

Details

DeepSeek innove grâce à une architecture combinant Multi-Head Latent Attention, Mixture of Experts (MoE), et Multi-Token.

Ajoutez à cela la quantization et le GRPO.

Cette conférence décrypte ces innovations, leurs implications sur la performance et le coût, et propose une lecture critique pour ingénieurs et praticiens.

Photo of TensorFlow User Group Rennes - IA par le Code group
TensorFlow User Group Rennes - IA par le Code
See more events
FREE