Китайський Z-Image скинув Flux з трону як короля AI-мистецтва — і ваш картопляний ПК може це запустити

Decrypt

2025-12-02 02:24:01

Коротко

Новий модель Z-Image працює на 6 ГБ VRAM—апаратний Flux2 навіть не може наблизитися.
Z-Image вже має понад 200 спільнотних ресурсів та більше тисячі позитивних відгуків порівняно з 157 відгуками Flux2.
Він має найвищий рейтинг серед відкритих моделей на сьогодні.

Декодер: Арт, Мода та Розважальний Хаб.

Відкрийте SCENE

Лабораторія Tongyi Alibaba Z-Image Turbo, модель генерації зображень з 6 мільярдами параметрів, вийшла минулого тижня з простим обіцянкою: найсучасніша якість на апаратному забезпеченні, яким ви дійсно володієте.

Ця обіцянка важко приземляється. Через кілька днів після її випуску розробники почали створювати LoRAs — спеціально налаштовані адаптації — з темпом, який вже перевищує Flux2, багатообіцяючий наступник надзвичайно популярної моделі Flux від Black Forest Labs.

Партійний трюк Z-Image – це ефективність. У той час як конкуренти, такі як Flux2, вимагають мінімум 24 ГБ VRAM ( і до 90 ГБ для повної моделі ), Z-Image працює на квантизованих установках з використанням лише 6 ГБ.

Це територія RTX 2060—фактично апаратне забезпечення з 2019 року. Залежно від роздільної здатності, користувачі можуть генерувати зображення всього за 30 секунд.

Для хобістів та незалежних творців це двері, які раніше були замкнені.

Спільнота штучного інтелекту в мистецтві швидко похвалила модель.

“Це те, чим мав бути SD3,” написав користувач Saruhey на CivitAI, найбільшій у світі репозиторії відкритих інструментів AI мистецтва. “Дотримання підказок досить вражаюче… модель, яка може працювати з текстом одразу, змінює правила гри. Це має таку ж, якщо не кращу, потужність, ніж Flux, який сам по собі є чорною магією. Китайці значно випереджають у грі AI.”

Z-Image Turbo був доступний на Civitais з минулого четверга і вже отримав понад 1,200 позитивних відгуків. Для контексту, Flux2—випущений за кілька днів до Z-Image—має 157.

Модель повністю нецензурована з нуля. Знаменитості, вигадані персонажі і так, явний контент - все це розглядається.

Станом на сьогодні, на Civitai є близько 200 ресурсів (файтинів, LoRA, робочих процесів ) для моделі, багато з яких є NSFW.

На Reddit користувач Regular-Forever5876 перевірив межі моделі з запитами на жорстокість і залишився враженим: “Святий корове!!! Ця штука розуміє жорстокість на 100%! Вона генерує її бездоганно,” написав він.

Технічна таємниця Z-Image Turbo полягає в його архітектурі S3-DiT — однострімовому трансформері, який обробляє текстові та зображення дані разом з самого початку, а не об'єднує їх пізніше. Ця тісна інтеграція, разом із агресивними техніками дистиляції, дозволяє моделі досягати якісних стандартів, які зазвичай вимагають моделей у п'ять разів більшого розміру.

Тестування моделі

Ми провели всебічне тестування Z-Image Turbo в кількох вимірах. Ось що ми виявили.

Швидкість: SDXL Темп, Якість наступного покоління

На дев'яти кроках Z-Image Turbo генерує зображення приблизно такою ж швидкістю, як SDXL, з звичайними 30 кроками — моделлю, яка була випущена в 2023 році.

Різниця в тому, що якість виходу Z-Image відповідає або перевищує Flux. На ноутбуці з графічним процесором RTX 2060 з 6 ГБ VRAM одне зображення зайняло 34 секунди.

Flux2, в порівнянні, займає приблизно в десять разів більше часу для створення порівнянного зображення.

Реалізм: новий стандарт

Z-Image Turbo є найфотореалістичнішою відкритою моделлю, доступною прямо зараз для споживчого обладнання. Вона перевершує Flux2 в усіх відношеннях, а базова дистильована модель перевершує спеціально налаштовані моделі реалістичності Flux.

Текстура шкіри та волосся виглядає детально та природно. Славнозвісний “підборіддя Флукса” та “пластикова шкіра” в основному зникли. Пропорції тіла постійно міцні, а LoRAs, які ще більше підвищують реалістичність, вже циркулюють.

Генерація тексту: Нарешті, слова, які працюють

Ось де Z-Image справді сяє. Це найкраща відкрита модель для генерації тексту в зображеннях, яка працює на рівні з Nanobanana та Seedream від Google — моделями, що встановлюють сучасний стандарт.

Для носіїв мандаринської мови Z-Image є очевидним вибором. Він розуміє китайську мову на рідній основі та правильно відображає символи.

Порада: Деякі користувачі повідомили, що запити китайською мовою насправді допомагають моделі генерувати кращі результати, і розробники навіть опублікували “покращувач запитів” китайською.

Англійський текст є однаково сильним, з одним винятком: незвичайні довгі слова, такі як “децентралізований”, можуть його заплутати — обмеження, яке також стосується Nanobanana.

Просторове усвідомлення та дотримання термінів: Виняткове

Відповідність запитам Z-Image є видатною. Він розуміє стиль, просторові відносини, позиції та пропорції з вражаючою точністю.

Наприклад, візьміть цей запит:

Собака в червоному капелюсі стоїть на телевізорі, на екрані якого написано “Decrypt є найкращим медіа-сайтом про криптовалюту та штучний інтелект у світі”. Зліва знаходиться блондинка в діловому костюмі, що тримає монету; справа стоїть робот на коробці першої допомоги, а за коробкою розташована зелена піраміда. Загальна сцена є сюрреалістичною. Кіт стоїть догори ногами на білому футбольному м'ячі, поруч із собакою. Астронавт з NASA тримає табличку з написом “Emerge” і розташована поруч з роботом.

Як видно, у ньому був лише один друкарський помилок, ймовірно, через змішування мов, але, крім цього, всі елементи точно представлені.

Пропуск кровотечі мінімальний, і складні сцени з кількома об'єктами залишаються узгодженими. Він перевершує Flux за цим показником і тримається на рівні з Nanobanana.

Що далі?

Alibaba планує випустити ще два варіанти: Z-Image-Base для доопрацювання та Z-Image-Edit для змін на основі інструкцій. Якщо вони з'являться з такою ж досконалістю, як Turbo, відкритий ландшафт програмного забезпечення має суттєво змінитися.

Наразі вирок громади чіткий: Z-Image забрав корону у Flux, так само як Flux колись скинув Stable Diffusion.

Справжнім переможцем буде той, хто залучить найбільше розробників для створення на його основі.

Але якщо ви спитаєте нас, так, Z-Image - це наша улюблена домашня орієнтована відкрита модель на даний момент.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.