OpenAI acaba de lanzar gpt-realtime, su nuevo modelo más avanzado para la experiencia de voz a voz en tiempo real. Con esta evolución, ahora los desarrolladores podrán crear aplicaciones multimodales mucho más naturales, con una mejor comprensión de instrucciones complejas y un habla mucho más expresiva.
Además, la compañía ha recalcado que este nuevo modelo no solo mejora la precisión en benchmarks clave, sino que es un 20% más económico que su predecesor, lo que lo convierte en una opción especialmente atractiva para quienes buscan integrar la IA conversacional en servicio de voz.
Conoce las novedades de gpt-realtime
El nuevo modelo trae consigo varias mejoras y actualizaciones:
- Comprensión más precisa del audio, con mejor interpretación de instrucciones y prompts.
- Nuevas voces Marin y Cedar, que se suman a las seis anteriores, todas actualizadas para sonar más naturales.
- Habla más expresiva, con entonación y matices más cercanos a la voz humana.
- Soporte ampliado en la API, que ahora incluye:
- Servidores MCP remotos.
- Entradas de imágenes.
- Llamadas telefónicas vía SIP.
- Guardado y reutilización de prompts.
Con todas estas novedades, OpenAI se muestra que sigue avanzando en el sector de la IA multimodal, una área en donde la competencia cada vez es más fuerte.
Rendimiento en benchmarks
OpenAI mostró resultados concretos de gpt-realtime frente al modelo anterior de diciembre de 2024:
- Big Bench Audio → 82,8 % de precisión (vs 65,6 %).
- MultiChallenge → 30,5 % (vs 20,6 %).
- ComplexFuncBench → 66,5 % (vs 49,7 %).
Como se puede observar, la cifras muestran unas mejoras sustanciales en la comprensión y generación de audio, lo que abre la puerta a aplicaciones más confiables en el ámbito como atención al cliente, educación y accesibilidad.
Reducción de precios en la API en tiempo real
Junto con todas estas mejoras, la compañía OpenAI sorprendió al anunciar una reducción del 20 % en los precios de la API gpt-realtime:
- $32 por 1 millón de tokens de entrada de audio.
- $0.40 por tokens de entrada en caché.
- $64 por 1 millón de tokens de salida de audio.
Con este movimiento, la compañía busca atraer a más desarrolladores, especialmente a aquellos que trabajan en experiencias interactivas de voz y que requieren gran volumen de peticiones.
Este enfoque competitivo recuerda a la estrategia de otras tecnológicas que ya integran IA en su ecosistema, como el despliegue de Copilot en Microsoft 365 o la llegada de la IA al traductor de Google para competir con Duolingo.
Comentarios!