DeepSeek : More Heads, Less Pain
Details
DeepSeek innove grâce à une architecture combinant Multi-Head Latent Attention, Mixture of Experts (MoE), et Multi-Token.
Ajoutez à cela la quantization et le GRPO.
Cette conférence décrypte ces innovations, leurs implications sur la performance et le coût, et propose une lecture critique pour ingénieurs et praticiens.
Merci de remplir ce formulaire qui m'aidera à orienter ma présentation : https://docs.google.com/forms/d/e/1FAIpQLSfvfc7J_oFWw43Frsc874L44Trx76WbYwLQgZns8VR-6ykYvg/viewform
Artificial Intelligence
Deep Learning
Neural Networks
Big Data
New Technology
