OpenAI تطلق 3 نماذج صوتية فورية جديدة أبرزها GPT-Realtime-2 للاستجابة الأسرع والأدق

هذا الموضوع OpenAI تطلق 3 نماذج صوتية فورية جديدة أبرزها GPT-Realtime-2 للاستجابة الأسرع والأدق ظهر على التقنية بلا حدود.
أطلقت OpenAI، عبر واجهة API، ثلاثة نماذج صوتية جديدة تعمل في الوقت الفعلي، في خطوة تنقل الذكاء الصوتي من مجرد محادثات بسيطة إلى أنظمة قادرة على الفهم والتفكير والترجمة وتنفيذ المهام أثناء الحوار المباشر.
ويأتي في مقدمة هذه النماذج GPT-Realtime-2، المبني على قدرات استدلال من فئة GPT-5، حيث يعالج الصوت بشكل متواصل دون الاعتماد على تحويل منفصل للكلام إلى نص ثم إلى صوت، ما يقلل التأخير بشكل كبير. كما يدعم نافذة سياق ضخمة تصل إلى 128 ألف رمز، ما يسمح بإجراء محادثات أطول وأكثر تعقيدًا.
ويوفر النموذج الجديد سلوكًا تفاعليًا أقرب للمساعد البشري، مثل تنفيذ أوامر متعددة في وقت واحد، والتحدث أثناء تنفيذ المهام، والتعامل مع الأخطاء بشكل مباشر داخل المحادثة، إضافة إلى تعديل نبرة الصوت حسب السياق.

أما النموذج الثاني GPT-Realtime-Translate فيركز على الترجمة الفورية المباشرة لأكثر من 70 لغة، مع دعم سيناريوهات مثل خدمة العملاء والتعليم والبث المباشر.
بينما يأتي GPT-Realtime-Whisper كنسخة مطورة من Whisper لتوفير تفريغ صوتي لحظي أثناء الحديث، ما يجعله مناسبًا للاجتماعات والبثوص والتوثيق الفوري.
وتتوفر النماذج الثلاثة الآن عبر API الخاص بـ OpenAI مع تحديثات إضافية لمنصة Realtime API.
هذا الموضوع OpenAI تطلق 3 نماذج صوتية فورية جديدة أبرزها GPT-Realtime-2 للاستجابة الأسرع والأدق ظهر على التقنية بلا حدود.


