Applications des Modèles de langue (LLM) au sein du groupe Ouest France
Details
Modèles de langue pour la construction et l'exploitation de graphes de connaissances à travers les archives du groupe Ouest France
L'actualité diffusée par la presse est souvent centrée autour des entités nommées (personnes, lieux, organisations, événements…) dont les connaissances évoluent constamment.
Ces entités représentent près de 10 % des contenus journalistiques, plus de 30 % des requêtes aux moteurs de recherche, et restent aujourd'hui au cœur des tâches adressées aux modèles de langue (LLM).
Leur nature dynamique et imprévisible entraîne fréquemment des erreurs dans les systèmes de traitement automatique des langues, telles que les ambiguïtés et les hallucinations.
Face à ce constat, notre objectif est de consolider les connaissances sur les entités à partir des archives du groupe Ouest-France.
L'analyse de ce vaste corpus est menée par un LLM adapté et contraint, afin d'extraire des entités nommées, de les identifier dans des bases connues, de repérer des relations entre elles et de leur associer des faits ou des citations.
Une fois cette information extraite, elle est structurée pour être intégrée dans un graphe de connaissances, ouvrant la voie à des applications telles que la vérification de faits, la constitution de revues de presse ou encore les systèmes de questions/réponses.
