تونيڤيديا هذه المرة حقًا لم تلتزم بالأخلاق، وأطلقت مباشرة وحش فهم الفيديو مفتوح المصدر


Nemotron 3 Nano Omni، يعالج الفيديو بسرعة مذهلة: يمكنه إنجاز محتوى فيديو مدته 10 ساعات في ساعة واحدة، بسرعة تفوق سرعة التشغيل بعشر مرات
يعتمد على تقنية الالتفاف ثلاثي الأبعاد، لا يمر عبر كل إطار بشكل أحمق، بل يبتلع البيانات على شكل كتل، مما يزيد الكفاءة بشكل كبير
في المستقبل، ستكون هذه السيناريوهات ممتعة جدًا:
البحث عن "شخص لا يرتدي خوذة أمان ويشاجر" في المراقبة على مدار اليوم
تحديد بدقة مشهد "صوت أمواج وشاهد غروب الشمس" بين مئات المواد
تشخيص عطل في المحرك من خلال سماع فيديو تشغيل الآلة
يستغرق بضع دقائق فقط، ويوفر حتى تكاليف Whisper
لكن يجب الانتباه، هذا الشخص هو طالب متفوق في مجال واحد بشكل نمطي
تم التركيز على فهم ومعالجة متعددة الوسائط وكفاءة الأداء، وإذا حاولت استخدامه للبرمجة أو استنتاج نصوص عالية الصعوبة، قد يكون أداؤه أقل من نماذج النصوص الخفيفة
الاستنتاج: لا تعتبره مبرمجًا شاملًا، لكنه بالتأكيد إله في عالم المصادر المفتوحة في تحليل الفيديو والصوت، ووضع العلامات على المواد الضخمة
إخوة الذكاء الاصطناعي للفيديو والمتعدد الوسائط، جربوه ضروري
رابط المشروع في قسم التعليقات 👇
NVDA3.61%
NANO‎-1.69%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت