OpenAI presenta el modelo de voz a voz GPT-Realtime con soporte multimodal y capacidades de conversación avanzadas.

2025-09-01 14:03:09

En resumen

OpenAI lanzó el modelo de conversión de voz a voz gpt-realtime con soporte multimodal, habilidades de conversación avanzadas y un fuerte rendimiento en razonamiento de audio.

La organización de investigación en inteligencia artificial OpenAI anunció la disponibilidad general de su API Realtime, ahora mejorada con características que permiten a desarrolladores y empresas construir agentes de voz robustos y listos para producción. La API soporta servidores MCP remotos, entradas de imagen y llamadas telefónicas a través del Protocolo de Inicialización de Sesión (SIP), lo que permite aplicaciones de voz más capaces y conscientes del contexto.

Junto con la API, OpenAI ha lanzado su modelo de voz a voz más avanzado, gpt-realtime, diseñado para mejorar el seguimiento de instrucciones, la llamada a funciones y el habla natural. El modelo puede interpretar indicaciones complejas, cambiar de idioma a mitad de la oración, reproducir secuencias alfanuméricas con precisión y captar señales no verbales. También están disponibles dos nuevas voces, Cedar y Marin, que ofrecen una entonación más expresiva y similar a la humana. Las voces existentes se han actualizado para incorporar estas mejoras.

La API en tiempo real procesa el audio directamente a través de un solo modelo, reduciendo la latencia y preservando el matiz, a diferencia de las tuberías tradicionales que encadenan modelos de conversión de voz a texto y de texto a voz por separado. gpt-realtime ha sido entrenado en colaboración con usuarios para sobresalir en aplicaciones del mundo real como soporte al cliente, asistencia personal y educación. Las evaluaciones de referencia muestran mejoras sustanciales en el razonamiento, la adherencia a las instrucciones y la precisión en la llamada de funciones en comparación con modelos anteriores.

Las actualizaciones adicionales incluyen la llamada de funciones asíncronas, lo que permite operaciones de larga duración sin interrumpir las conversaciones en curso, apoyando aún más experiencias de voz listas para producción y sin problemas.

OpenAI Expande la API en Tiempo Real Con Soporte MCP, Entradas de Imagen, Integración SIP Y Controles de Ahorro de Costos Para Agentes de Voz

La API en tiempo real de OpenAI ahora incluye nuevas funciones diseñadas para simplificar la integración y ampliar las capacidades de los agentes de voz listos para producción. Los desarrolladores pueden habilitar el soporte MCP remoto vinculando una sesión a una URL de servidor MCP, lo que permite que la API gestione automáticamente las llamadas a herramientas y acceda a funcionalidades adicionales sin configuración manual.

El modelo gpt-realtime ahora admite entradas de imágenes, lo que permite al sistema incorporar fotos, capturas de pantalla y otros visuales junto con audio o texto. Esto permite a los usuarios hacer preguntas específicas sobre el contexto de lo que ven, mientras que los desarrolladores mantienen el control sobre qué imágenes se comparten y cuándo.

Las mejoras adicionales incluyen el soporte del Protocolo de Inicio de Sesión (SIP) para conectar aplicaciones a redes telefónicas y sistemas PBX, así como mensajes reutilizables que permiten a los desarrolladores guardar y desplegar instrucciones, herramientas y mensajes de ejemplo preconfigurados en múltiples sesiones.

La API Realtime generalmente disponible y el modelo gpt-realtime ahora son accesibles para todos los desarrolladores, con precios reducidos en un 20% en comparación con el anterior gpt-4o-realtime-preview. Nuevos controles para el contexto de conversación permiten una gestión de tokens más inteligente, reduciendo costos para sesiones prolongadas. La documentación, un Playground para pruebas y una guía de prompts de la API Realtime están disponibles para apoyar a los desarrolladores en la adopción de estas características.

GPT-2.6%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

0/400

Sin comentarios

Tema
#Gate Initial Listing WLFI
13k Popularidad
#Will Crypto Market Break Out in September?
16k Popularidad
#Are You Bullish or Bearish Today?
15k Popularidad
#GUSD Now Live on Gate
41k Popularidad
#Gate Alpha XLAB Points Airdrop
3k Popularidad

Anclado