¡OpenAI presenta gpt-realtime, su modelo de voz más avanzado hasta la fecha!

OpenAI presenta su nuevo modelo de voz a voz gpt-realtime.

OpenAI presenta gpt-realtime
OpenAI presenta gpt-realtime

OpenAI acaba de lanzar gpt-realtime, su nuevo modelo más avanzado para la experiencia de voz a voz en tiempo real. Con esta evolución, ahora los desarrolladores podrán crear aplicaciones multimodales mucho más naturales, con una mejor comprensión de instrucciones complejas y un habla mucho más expresiva.

Además, la compañía ha recalcado que este nuevo modelo no solo mejora la precisión en benchmarks clave, sino que es un 20% más económico que su predecesor, lo que lo convierte en una opción especialmente atractiva para quienes buscan integrar la IA conversacional en servicio de voz.

OpenAI presenta gpt-realtime
OpenAI presenta gpt-realtime

Conoce las novedades de gpt-realtime

El nuevo modelo trae consigo varias mejoras y actualizaciones:

  • Comprensión más precisa del audio, con mejor interpretación de instrucciones y prompts.
  • Nuevas voces Marin y Cedar, que se suman a las seis anteriores, todas actualizadas para sonar más naturales.
  • Habla más expresiva, con entonación y matices más cercanos a la voz humana.
  • Soporte ampliado en la API, que ahora incluye:
  • Servidores MCP remotos.
  • Entradas de imágenes.
  • Llamadas telefónicas vía SIP.
  • Guardado y reutilización de prompts.

Con todas estas novedades, OpenAI se muestra que sigue avanzando en el sector de la IA multimodal, una área en donde la competencia cada vez es más fuerte.

Rendimiento en benchmarks

OpenAI mostró resultados concretos de gpt-realtime frente al modelo anterior de diciembre de 2024:

  • Big Bench Audio → 82,8 % de precisión (vs 65,6 %).
  • MultiChallenge → 30,5 % (vs 20,6 %).
  • ComplexFuncBench → 66,5 % (vs 49,7 %).

Como se puede observar, la cifras muestran unas mejoras sustanciales en la comprensión y generación de audio, lo que abre la puerta a aplicaciones más confiables en el ámbito como atención al cliente, educación y accesibilidad.

Reducción de precios en la API en tiempo real

Junto con todas estas mejoras, la compañía OpenAI sorprendió al anunciar una reducción del 20 % en los precios de la API gpt-realtime:

  • $32 por 1 millón de tokens de entrada de audio.
  • $0.40 por tokens de entrada en caché.
  • $64 por 1 millón de tokens de salida de audio.

Con este movimiento, la compañía busca atraer a más desarrolladores, especialmente a aquellos que trabajan en experiencias interactivas de voz y que requieren gran volumen de peticiones.

Este enfoque competitivo recuerda a la estrategia de otras tecnológicas que ya integran IA en su ecosistema, como el despliegue de Copilot en Microsoft 365 o la llegada de la IA al traductor de Google para competir con Duolingo.


Soy Ingeniero Informático desde 2005 pero mi pasión hacia la informática viene desde mucho antes. Empecé con Windows 3.1 y luego salte a 95 y desde entonces soy un apasionado a los sistemas operativos. El software, el hardware y los adelantos tecnológicos son mi día a día.