Cómo construir tu primer agente de voz en tiempo real (sin volverse loco)
Details
Los agentes de voz con LLM se ven increíbles en los demos… hasta que intentas hacer uno y empiezan los problemas: retrasos en las respuestas, audios que se pisan, y un bot que o habla sin parar alucinando o se queda en un silencio eterno.
Lo que aprenderás:
En esta charla te voy a contar cómo construir un agente de voz tipo “English Speaking Buddy”: un tutor de inglés con el que puedes practicar conversación, que se adapta a tu nivel y te ayuda a perder el miedo a hablar. Este agente está construido con Python, servicios de AWS (para voz y LLM) y Pipecat, un framework open source en Python para crear agentes conversacionales de voz en tiempo real. Veremos en detalle el flujo principal audio → texto → LLM → audio, y cómo construir una arquitectura clara y mantenible para agentes de voz en tiempo real.
También revisaremos los componentes esenciales para que esto funcione de verdad: cómo manejar errores, configurar y proteger tus claves, registrar lo que pasa (logging) y tomar buenas decisiones de diseño para que la conversación con el bot se sienta natural. Aunque los ejemplos usen AWS y Pipecat, los patrones que veremos se pueden aplicar con otros proveedores o librerías. Al final, te llevarás una idea clara de cómo funcionan estos agentes, ejemplos concretos de código en Python que podrás adaptar a tus propios proyectos y una pequeña checklist para pasar de un demo frágil a algo con lo que la gente realmente pueda hablar.
***
Speaker Camila Hinojosa AWS Community Builder
