DeepSeek : More Heads, Less Pain

Hosted By
Jackie B.

Details
DeepSeek innove grâce à une architecture combinant Multi-Head Latent Attention, Mixture of Experts (MoE), et Multi-Token.
Ajoutez à cela la quantization et le GRPO.
Cette conférence décrypte ces innovations, leurs implications sur la performance et le coût, et propose une lecture critique pour ingénieurs et praticiens.

TensorFlow User Group Rennes - IA par le Code
See more events
TensorFlow User Group Rennes - IA par le Code

No ratings yet
Online event
Link visible for attendees
DeepSeek : More Heads, Less Pain
FREE