¿Cómo saber si tu IA es bueno? Evaluación en IA
Details
Desde la evaluación de LLMs —donde ninguna métrica cuenta toda la historia— hasta cómo medir la calidad del retrieval en RAG. Una introducción práctica a lo que realmente importa al evaluar sistemas de IA.
Randbee
Muchas gracias a Randbee y Juan Arevalo por acogernos para esta charla. Randbee es una consultoria que opera a la intersección de sostenibilitdad y data science.
Vonage:
Vonage es patrocinador oficial de IA Generativa Sevilla. Como parte de esta colaboración, ofrece 20€ en créditos gratuitos para sus APIs a todos nuestros miembros. Regístrate a través de este enlace y utiliza el código 26GESE20.
Ponentes:
Adriana Correia: PhD en Quantum Distributional Semantics y Senior AI engineer en dLocal.
La charla explorará los desafíos de evaluar sistemas de generación de lenguaje natural (LLMs), y por qué no existe una única métrica capaz de medir completamente la calidad de un modelo.
Mathias Haugestad NLP Engineer y Antonio "Tico" Perez Morales Solutions Architect CCC:
La charla abordará los principales desafíos de evaluar el retrieval en sistemas RAG, desde medir relevancia y cobertura hasta evitar resultados convincentes pero incorrectos. También se presentarán buenas prácticas y métricas comunes para evaluar la calidad de la recuperación y entender cómo impacta en el rendimiento final del sistema.
