Skip to content

Details

Los agentes de voz con LLM se ven increíbles en los demos… hasta que intentas hacer uno y empiezan los problemas: retrasos en las respuestas, audios que se pisan, y un bot que o habla sin parar alucinando o se queda en un silencio eterno.

Lo que aprenderás:
En esta charla te voy a contar cómo construir un agente de voz tipo “English Speaking Buddy”: un tutor de inglés con el que puedes practicar conversación, que se adapta a tu nivel y te ayuda a perder el miedo a hablar. Este agente está construido con Python, servicios de AWS (para voz y LLM) y Pipecat, un framework open source en Python para crear agentes conversacionales de voz en tiempo real. Veremos en detalle el flujo principal audio → texto → LLM → audio, y cómo construir una arquitectura clara y mantenible para agentes de voz en tiempo real.

También revisaremos los componentes esenciales para que esto funcione de verdad: cómo manejar errores, configurar y proteger tus claves, registrar lo que pasa (logging) y tomar buenas decisiones de diseño para que la conversación con el bot se sienta natural. Aunque los ejemplos usen AWS y Pipecat, los patrones que veremos se pueden aplicar con otros proveedores o librerías. Al final, te llevarás una idea clara de cómo funcionan estos agentes, ejemplos concretos de código en Python que podrás adaptar a tus propios proyectos y una pequeña checklist para pasar de un demo frágil a algo con lo que la gente realmente pueda hablar.

***

Speaker Camila Hinojosa AWS Community Builder

Related topics

Artificial Intelligence
Amazon Web Services
Cloud Computing
DevOps

You may also like