واجهة برمجة التطبيقات الصوتية GPT-Realtime الجديدة من OpenAI لأتمتة الأعمال

OpenAI's New GPT-Realtime Voice API for Business AutomationSource: OpenAIOpenAI's New GPT-Realtime Voice API for Business AutomationSource: OpenAISource: OpenAI**OpenAI**OpenAI قد أطلقت رسميًا GPT-Realtime وواجهة برمجة التطبيقات Realtime المعاد تصميمها، والتي تقدم نموذجًا قويًا وشاملًا من الصوت إلى الصوت مصممًا لتحويل التفاعلات المعتمدة على الصوت في تطبيقات الأعمال.** التحديث يرمز إلى الانتقال إلى التوفر العام، مما يلغي الحاجة إلى سلاسل منفصلة من الكلام إلى نص ونص إلى كلام ويقدم ميزات مثل إدخال الصورة، مكالمات SIP، والوصول إلى أدوات خارجية. العرض الجديد مُحسَّن للاستخدام في العالم الحقيقي، مما يحسن من طبيعة الاستجابة مع تبسيط التكامل لدعم العملاء، والمساعدين، ومنصات التعليم.

**OpenAI قد أطلقت رسميًا GPT-Realtime وواجهة برمجة التطبيقات المعاد تصميمها Realtime، مما يوفر نموذجًا قويًا شاملًا لتحويل الصوت إلى صوت مصمم لتحويل التفاعلات الصوتية في تطبيقات الأعمال.OpenAIGPT-Realtimeالميزات

API الوقت الحقيقي رسميًا خارج النسخة التجريبية وجاهز لوكلاء الصوت الإنتاجيين لديك!

نحن نقدم أيضًا gpt-realtime - نموذجنا الأكثر تقدمًا لتحويل الكلام إلى كلام حتى الآن - بالإضافة إلى أصوات جديدة وقدرات API:

MCPs عن بُعد ️ إدخال الصورة هاتف SIP الاتصال
️ مطالبات قابلة للاستخدام pic.twitter.com/fX5yvt0CDD

— مطوري OpenAI (@OpenAIDevs) 28 أغسطس 2025

واجهة برمجة التطبيقات في الوقت الحقيقي خرجت رسميًا من مرحلة الاختبار وهي جاهزة لوكلاء الصوت في الإنتاج لديك!

نحن نقدم أيضًا gpt-realtime - نموذجنا الأكثر تقدمًا لتحويل الكلام إلى كلام حتى الآن - بالإضافة إلى أصوات جديدة وإمكانيات API:

MCPs البعيدة
️ إدخال الصورة الاتصال عبر هاتف SIP ️ موجهات قابلة لإعادة الاستخدام pic.twitter.com/fX5yvt0CDD

— مطوري OpenAI (@OpenAIDevs) 28 أغسطس 2025

API الوقت الحقيقي خرجت رسمياً من النسخة التجريبية وجاهزة لوكلاء الصوت الإنتاجيين لديك!

نحن نقدم أيضًا gpt-realtime - أحدث نموذج لدينا لتحويل الصوت إلى صوت حتى الآن - بالإضافة إلى أصوات جديدة وإمكانيات API:

MCPs البعيدة ️ إدخال الصورة مكالمات هاتف SIP ️ عبارات قابلة لإعادة الاستخدام pic.twitter.com/fX5yvt0CDD

ما هو GPT-Realtime ولماذا هو مهم

GPT‑Realtime هو نموذج تحويل الكلام إلى كلام يتعامل مع الإدخال والإخراج الصوتي مباشرة، متجاوزًا خطوط الأنابيب التقليدية متعددة النماذج. هذا النهج أحادي النموذج يقلل بشكل كبير من زمن الاستجابة، ويلتقط الفروق الصوتية (مثل، التوقفات، النغمة، الضحك)، ويقدم ردودًا طبيعية ومعبرة. واجهة برمجة التطبيقات Realtime، التي أصبحت جاهزة للإنتاج الآن، تتضمن قدرات إضافية مثل إدخال الصور، دعم هاتف SIP، بروتوكول سياق النموذج عن بُعد (MCP)، والمطالبات القابلة لإعادة الاستخدام. قامت OpenAI بتدريب النموذج بشكل وثيق مع العملاء للتفوق في المجالات العملية مثل الدعم الفني، المساعدة الشخصية، والتعليم.

يظهر النموذج تحسينات ملحوظة في دقة اتباع التعليمات ( حيث ارتفعت من حوالي 65.6% إلى 82.8%) وجودة الصوت. مع إدخال صوتين جديدين، "سيدر" و"مارين"، تبدو التفاعلات أكثر حيوية وجاذبية. من المهم أن OpenAI قد خفضت الأسعار بحوالي 20%، مع أسعار تبلغ حوالي 32 دولارًا لكل مليون توكن مدخل صوتي و64 دولارًا لكل مليون توكن مخرج، مما يجعل الذكاء الاصطناعي الصوتي عالي الأداء أكثر فعالية من حيث التكلفة للشركات.

مصممة للأعمال: حالات استخدام العالم الحقيقي

تؤكد OpenAI على توافق النموذج مع الاستخدام العملي في المؤسسات. من خلال تعزيز معالجة الصوت المباشر وتمكين تكامل الأدوات، يمكن الآن للمطورين بناء وكلاء صوتيين يستجيبون لمهام مثل دعم العملاء المباشر، والتعليم، والمساعدة الافتراضية، والمزيد. تعتبر إضافة وظيفة مكالمات الهاتف SIP مهمة بشكل خاص لنشر مراكز الاتصال، مما يمكّن من الانتقال السلس بين الذكاء الاصطناعي وأنظمة الهاتف التقليدية.

تقوم GPT‑Realtime بالبناء على إرث GPT‑4o ("o" لـ"omni")، الذي تم إطلاقه في مايو 2024. قدمت GPT‑4o قدرات حقيقية متعددة الوسائط، حيث تعالج النصوص والصوت والرؤية، مع دعم الصوت الأصلي ومعايير أداء مثيرة للإعجاب. دعمت أكثر من 50 لغة وسهلت التخصيص الدقيق للشركات. تمثل النسخة الخاصة بـ Realtime API في أكتوبر 2024 المراحل المبكرة من التفاعل الصوتي، التي نضجت الآن بشكل كبير من خلال تحسينات اليوم.

الخاتمة

يمثل GPT-Realtime تقدمًا حيويًا في تطبيقات الصوت المدفوعة بالذكاء الاصطناعي، حيث يجمع بين انخفاض الكمون، والكلام الطبيعي، والوصول الموسع إلى الأدوات في واجهة برمجة التطبيقات API جاهزة للأعمال. مع تحسين مقاييس الأداء، وتقليل التكاليف، وميزات التكامل العملية، تقدم التحديث قيمة كبيرة للمنظمات التي تطور وكلاء صوتيين، وأنظمة دعم العملاء، وأدوات التعلم التفاعلي.

الميزات

GPT-1.24%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت