امسح ضوئيًا لتحميل تطبيق Gate
qrCode
خيارات تحميل إضافية
لا تذكرني بذلك مرة أخرى اليوم

صورة Z الصينية تزيح Flux عن عرش فن الذكاء الاصطناعي—ويمكن لجهاز الكمبيوتر الخاص بك الذي يعمل على البطاطا تشغيله

باختصار

  • نموذج Z-Image الجديد يعمل على 6 جيجابايت من VRAM—الأجهزة Flux2 لا تستطيع حتى لمسه.
  • تمتلك Z-Image بالفعل أكثر من 200 مورد من المجتمع وأكثر من ألف تقييم إيجابي مقابل 157 تقييم لـ Flux2.
  • إنه مصنف كأفضل نموذج مفتوح المصدر حتى الآن.

مركز فنون وفنون الموضة والترفيه لDecrypt.


اكتشف SCENE

أطلق مختبر Tongyi التابع لعلي بابا نموذج Z-Image Turbo، وهو نموذج لتوليد الصور يحتوي على 6 مليارات معلمة، الأسبوع الماضي مع وعد بسيط: جودة رائدة في المجال على الأجهزة التي تمتلكها بالفعل.

هذا الوعد ينزل بقوة. بعد أيام من إصداره، كان المطورون يعملون على إنتاج LoRAs—تعديلات دقيقة مخصصة—بسرعة تتجاوز بالفعل Flux2، خليفة Black Forest Labs الذي تم الحديث عنه كثيرًا لنموذج Flux الشهير.

الخدعة الجذابة لـ Z-Image هي الكفاءة. بينما تتطلب المنافسين مثل Flux2 حدًا أدنى من 24 جيجابايت من VRAM ( وما يصل إلى 90 جيجابايت للنموذج الكامل )، تعمل Z-Image على إعدادات كمية بحجم 6 جيجابايت فقط.

هذه منطقة RTX 2060 - أساسًا أجهزة من عام 2019. اعتمادًا على الدقة، يمكن للمستخدمين توليد الصور في غضون 30 ثانية فقط.

بالنسبة للهواة والمبدعين المستقلين، هذا باب كان مغلقًا سابقًا.

كانت مجتمع فنون الذكاء الاصطناعي سريعًا في مدح النموذج.

“هذا ما كان من المفترض أن يكون عليه SD3”، كتب المستخدم ساروهى على CivitAI، أكبر مستودع في العالم لأدوات فن الذكاء الاصطناعي مفتوحة المصدر. “الالتزام بالمطالبة ممتاز جدًا… نموذج يمكنه معالجة النص على الفور يعد تغييرًا كبيرًا. هذه الأداة تمتلك نفس القوة، إن لم تكن أفضل، من Flux الذي يعتبر سحر أسود بمفرده. الصينيون متقدمون بشكل كبير في لعبة الذكاء الاصطناعي.”

كان Z-Image Turbo متاحًا على Civitai منذ يوم الخميس الماضي وقد حصل بالفعل على أكثر من 1,200 تقييم إيجابي. وللإشارة، فإن Flux2 — الذي تم إصداره قبل بضعة أيام من Z-Image — لديه 157.

النموذج غير خاضع للرقابة بالكامل من البداية. المشاهير، الشخصيات الخيالية، ونعم، المحتوى الصريح كلها متاحة.

اعتبارًا من اليوم، هناك حوالي 200 مورد (finetunes و LoRAs و workflows) للنموذج على Civitai وحده، العديد منها غير مناسب للعمل.

على Reddit، اختبر المستخدم Regular-Forever5876 حدود النموذج باستخدام مطالبات العنف وخرج مذهولاً: “يا إلهي!!! هذا الشيء يفهم العنف بشكل مذهل! إنه يولده بشكل مثالي”، كتب.

السر الفني وراء Z-Image Turbo هو بنية S3-DiT الخاصة به - محول ذو تيار واحد يقوم بمعالجة بيانات النص والصورة معًا من البداية، بدلاً من دمجها لاحقًا. هذه التكامل الوثيق، جنبًا إلى جنب مع تقنيات التقطير العدوانية، يمكّن النموذج من تلبية معايير الجودة التي تتطلب عادةً نماذج بحجم خمسة أضعاف حجمه.

اختبار النموذج

قمنا بتشغيل Z-Image Turbo من خلال اختبارات مكثفة عبر عدة أبعاد. إليك ما وجدناه.

السرعة: SDXL الإيقاع، جودة الجيل التالي

في تسعة خطوات، يقوم Z-Image Turbo بتوليد الصور بنفس سرعة SDXL تقريبًا، مع 30 خطوة المعتادة - وهو نموذج تم إصداره في عام 2023.

الفرق هو أن جودة إخراج Z-Image تتطابق أو تتفوق على Flux. على جهاز كمبيوتر محمول مزود ببطاقة رسوميات RTX 2060 بسعة 6 جيجابايت من VRAM، استغرقت صورة واحدة 34 ثانية.

يستغرق Flux2، بالمقارنة، حوالي عشرة أضعاف الوقت لإنشاء صورة مماثلة.

الواقعية: المعيار الجديد

Z-Image Turbo هو النموذج الأكثر واقعية المتاح حاليًا للأجهزة ذات المستوى الاستهلاكي. إنه يتفوق على Flux2 بشكل كامل، ويحقق النموذج الأساسي المقطر أداءً أفضل من التعديلات المخصصة للواقعية في Flux.

تبدو ملمس البشرة والشعر مفصلين وطبيعيين. “ذقن فليكس” و"البشرة البلاستيكية" الشهيرة تقريبًا غير موجودين. نسب الجسم متسقة بشكل ثابت، وLoRAs التي تعزز الواقعية أكثر قد بدأت بالفعل في التداول.

توليد النص: أخيرًا، كلمات تعمل

هنا تتألق Z-Image حقًا. إنها أفضل نموذج مفتوح المصدر لتوليد النصوص داخل الصور، وتؤدي على نفس مستوى نماذج Google مثل Nanobanana وSeedream—النماذج التي وضعت المعايير الحالية.

بالنسبة للمتحدثين باللغة الماندرين، فإن Z-Image هو الخيار الواضح. إنه يفهم الصينية بشكل أصلي ويعرض الشخصيات بشكل صحيح.

نصيحة احترافية: أفاد بعض المستخدمين أن استخدام اللغة الماندرين في التوجيه يساعد النموذج في إنتاج مخرجات أفضل، حتى أن المطورين نشروا “معزز التوجيه” باللغة الماندرين.

النص الإنجليزي قوي بنفس القدر، باستثناء واحد: الكلمات الطويلة غير الشائعة مثل “لامركزية” يمكن أن تعيقه—وهي قيود تشترك فيها Nanobanana أيضًا.

الوعي المكاني والامتثال الفوري: استثنائي

الالتزام بالتوجيهات في Z-Image رائع. إنه يفهم الأسلوب، والعلاقات المكانية، والمواقع، والنسب بدقة ملحوظة.

على سبيل المثال، خذ هذه التعليمات:

كلب يرتدي قبعة حمراء واقف على قمة تلفاز يعرض الكلمات “Decrypt 是世界上最好的加密货币与人工智能媒体网站” على الشاشة. على اليسار، يوجد امرأة شقراء ترتدي بدلة عمل تحمل عملة؛ على اليمين، يوجد روبوت واقف على قمة صندوق إسعافات أولية، وهرم أخضر يقف خلف الصندوق. المشهد العام غير واقعي. قطة واقفة مقلوبة على قمة كرة قدم بيضاء، بجانب الكلب. رائد فضاء من ناسا يحمل لافتة مكتوب عليها “Emerge” وموجود بجانب الروبوت.

من الواضح أنه كان هناك خطأ مطبعي واحد فقط، ربما بسبب اختلاط اللغات، ولكن بخلاف ذلك، تم تمثيل جميع العناصر بدقة.

تسرب المطالبات ضئيل، وتظل المشاهد المعقدة التي تحتوي على العديد من الموضوعات متماسكة. إنه يتفوق على فلوكس في هذا المقياس ويحتفظ بمكانته مقابل نانوبنانا.

ماذا بعد؟

تخطط علي بابا لإصدار نوعين آخرين: Z-Image-Base للتعديل الدقيق، و Z-Image-Edit للتعديلات المعتمدة على التعليمات. إذا ظهرا بنفس الجودة التي تتمتع بها Turbo، فسيتغير مشهد المصادر المفتوحة بشكل كبير.

حتى الآن، حكم المجتمع واضح: لقد أخذت Z-Image تاج Flux، تمامًا كما جردت Flux Stable Diffusion من عرشه.

الفائز الحقيقي سيكون هو من يجذب أكبر عدد من المطورين للبناء عليه.

لكن إذا سألتنا، نعم، فإن Z-Image هو نموذجنا المفضل الموجه نحو المنزل المصدر المفتوح في الوقت الحالي.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخنعرض المزيد
  • القيمة السوقية:$3.54Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.53Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.57Kعدد الحائزين:1
    0.29%
  • القيمة السوقية:$3.52Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.58Kعدد الحائزين:1
    0.31%
  • تثبيت