Skip to content

Details

¿Alguna vez te has preguntado cómo se construye un modelo de Procesamiento de Lenguaje Natural?

En esta charla, a medias entre una lingüista computacional y una data scientist, te contaremos todo el proceso desde el diseño del corpus inicial hasta la construcción del modelo.

En la parte lingüística hablaremos de la metodología de anotación por pares y del criterio lingüístico necesario cuando trabajamos con Machine Learning.

En la parte de ingeniería, veremos qué son los word embeddings y sus distintas formas de creación, desde las técnicas más conocidas y sencillas (Bag-of-words, TF-IDF) hasta técnicas más novedosas y que ahora están en el top del NLP: los modelos Transformers y su particular manera de crear los word embeddings.

Además, te recomendaremos distintas fuentes para obtener corpus y datasets anotados, y algunas librerías python de fácil uso para poner en práctica lo aprendido, implementar tu propio modelo y poder llegar a ser un@ expert@ en creación de modelos de NLP.

¿Estás preparad@?

----------------------------------------------------------------------------------------------------

Ponentes:

Carmen Torrijos

Lingüista computacional en el área de Banking Analytics del Instituto de Ingeniería del Conocimiento (IIC). Es licenciada en Traducción e Interpretación por la Universidad Autónoma de Madrid (2010), Máster en Comunicación Intercultural por la Universidad de Alcalá de Henares (2011), Graduada en Filología Hispánica por la Universidad Autónoma de Madrid (2018) y Curso Superior en Gestión de Proyectos por la Escuela de Organización Industrial (2020). Participa desde 2013 en proyectos de Procesamiento de Lenguaje Natural, llevando a cabo la anotación morfológica, sintáctica y semántica de corpus para entrenamiento de modelos de Machine Learning, el ajuste y evaluación de herramientas de parsing y la creación de gramáticas computacionales y taxonomías. Está especializada en el desarrollo de recursos lingüísticos para aplicaciones de análisis del sentimiento en texto libre, detección de entidades y extracción de relaciones.

Ainhoa Goñi

Ingeniera de datos en el área de Banking Analytics del Instituto de Ingeniería del Conocimiento (IIC). Es licenciada en Ingeniería Matemática por la Universidad Complutense de Madrid (2017) y cursó el Máster en Big Data y Data Science en Finanzas en Afi Escuela de Finanzas (2018). Actualmente, ejerce además como profesora del Máster de Big Data y Data Science en la Universidad Autónoma de Madrid, impartiendo clases de Procesamiento de Lenguaje Natural. En su actual puesto en el IIC, participa en proyectos de Data Science en diferentes áreas, llevando a cabo distintas tareas: análisis exploratorio, pre-procesado de datos, creación de modelos predictivos mediante algoritmos de optimización, machine learning y deep-learning. Está especializada en la creación de modelos de lenguaje para aplicaciones de detección de entidades y extracción de relaciones, entre otras especialidades.

Members are also interested in