Skip to content

Machine Learning et Traitement automatique de la langue occitane

Photo of Eliana RAAD-LOMBARDI
Hosted By
Eliana R. and paul g.
Machine Learning et Traitement automatique de la langue occitane

Details

L'histoire d'une synthèse vocale (quasi) bilingue pour une langue peu dotée : l'occitan

L'occitan est une langue romane du Sud de l'Europe faisant partie des langues peu dotées (en ressources numériques, mais aussi en moyen humains et financiers). Elle a également la particularité de comporter plusieurs variétés dialectales. Enfin, elle est parlée sur un territoire où elle est minoritaire et où les noms de rues, de personnes, sont souvent dans la langue officielle (français ou espagnol).
Le Congrès et Elhuyar, lorsqu'ils ont voulu construire une synthèse vocale pour la langue occitane, ont donc dû faire face à plusieurs défis :

  • L'absence de données d'entraînement pour l'IA, et le peu de moyens humains et financiers pour en construire
  • La gestion de la variété dialectale
  • La prise en compte de la prononciation des noms propres français (il faut qu'un GPS prononce correctement, par exemple, la rue « Louis Pasteur »)
    Comment ont-ils réussi à répondre à ces trois exigences en conjuguant linguistique, traitement automatique de la langue et machine learning ? C'est ce que nous vous proposons de découvrir lors de ce meetup.

La synthèse vocale en occitan a été réalisée dans le cadre de LINGUATEC, un partenariat transfrontalier du programme POCTEFA.

Bio de nos intervenants :

Aure SEGUIER est responsable de projets et développeuse TAL (Traitement Automatique de la Langue) au sein du Congrès permanent de la langue occitane. Titulaire d'un Master 1 linguistique et informatique, d'une licence d'occitan et d'un Master de psychologie cognitive, elle a d'abord été webmaster et journaliste web. Son travail au sein du Congrès, qui propose des outils numériques liés à la langue occitane, l'a amenée peu à peu à se tourner vers le domaine du TAL pour l'occitan. Elle a travaillé à la création de ressources et d'outils variés : lexiques TEI, corpus, correcteurs orthographiques, claviers prédictifs, traducteurs automatiques, synthèse et reconnaissance vocale... A ses heures perdues, elle est également auteur, comédienne et contributrice à Wikidata et Wikimedia Commons.

Igor LETURIA est ingénieur en informatique et en électronique de Mondragon Unibertsitatea (Arrasate). Il est titulaire d'une maîtrise en informatique de l'Université Paul Sabatier (Toulouse), d'un master en Analyse et Traitement du Langage et d'un doctorat en Technologies du Langage. Il travaille à la Fondation Elhuyar, où il a été directeur du département de R&D, et est actuellement coordinateur du département des technologies de la parole. Il a coordonné divers projets stratégiques en collaboration avec d’autres agents, et subventionnés par le Gouvernement Basque pour la recherche et le développement des technologies de la langue et la parole pour la langue basque. Il participe à la Commission Spéciale pour promouvoir la langue basque dans l'Environnement Numérique du Conseil Consultatif de la Langue Basque. Il a dirigé et participé au développement des systèmes ASR et TTS basques.

LINGUATEC (EFA227/16) « Développement de la coopération transfrontalière et du transfert de connaissance en technologies de la langue » est un programme retenu par le second appel à projets du Programme de Coopération Territorial Espagne-France-Andorre POCTEFA (2014-2020) qui a pour objectif le transfert de technologies et le développement de ressources et d’applications linguistiques innovantes en aragonais, basque et occitan.

Photo of IAPau Machine Learning group
IAPau Machine Learning
See more events