Новий модель Z-Image працює на 6 ГБ VRAM—апаратний Flux2 навіть не може наблизитися.
Z-Image вже має понад 200 спільнотних ресурсів та більше тисячі позитивних відгуків порівняно з 157 відгуками Flux2.
Він має найвищий рейтинг серед відкритих моделей на сьогодні.
Декодер: Арт, Мода та Розважальний Хаб.
Відкрийте SCENE
Лабораторія Tongyi Alibaba Z-Image Turbo, модель генерації зображень з 6 мільярдами параметрів, вийшла минулого тижня з простим обіцянкою: найсучасніша якість на апаратному забезпеченні, яким ви дійсно володієте.
Ця обіцянка важко приземляється. Через кілька днів після її випуску розробники почали створювати LoRAs — спеціально налаштовані адаптації — з темпом, який вже перевищує Flux2, багатообіцяючий наступник надзвичайно популярної моделі Flux від Black Forest Labs.
Партійний трюк Z-Image – це ефективність. У той час як конкуренти, такі як Flux2, вимагають мінімум 24 ГБ VRAM ( і до 90 ГБ для повної моделі ), Z-Image працює на квантизованих установках з використанням лише 6 ГБ.
Це територія RTX 2060—фактично апаратне забезпечення з 2019 року. Залежно від роздільної здатності, користувачі можуть генерувати зображення всього за 30 секунд.
Для хобістів та незалежних творців це двері, які раніше були замкнені.
Спільнота штучного інтелекту в мистецтві швидко похвалила модель.
“Це те, чим мав бути SD3,” написав користувач Saruhey на CivitAI, найбільшій у світі репозиторії відкритих інструментів AI мистецтва. “Дотримання підказок досить вражаюче… модель, яка може працювати з текстом одразу, змінює правила гри. Це має таку ж, якщо не кращу, потужність, ніж Flux, який сам по собі є чорною магією. Китайці значно випереджають у грі AI.”
Z-Image Turbo був доступний на Civitais з минулого четверга і вже отримав понад 1,200 позитивних відгуків. Для контексту, Flux2—випущений за кілька днів до Z-Image—має 157.
Модель повністю нецензурована з нуля. Знаменитості, вигадані персонажі і так, явний контент - все це розглядається.
Станом на сьогодні, на Civitai є близько 200 ресурсів (файтинів, LoRA, робочих процесів ) для моделі, багато з яких є NSFW.
На Reddit користувач Regular-Forever5876 перевірив межі моделі з запитами на жорстокість і залишився враженим: “Святий корове!!! Ця штука розуміє жорстокість на 100%! Вона генерує її бездоганно,” написав він.
Технічна таємниця Z-Image Turbo полягає в його архітектурі S3-DiT — однострімовому трансформері, який обробляє текстові та зображення дані разом з самого початку, а не об'єднує їх пізніше. Ця тісна інтеграція, разом із агресивними техніками дистиляції, дозволяє моделі досягати якісних стандартів, які зазвичай вимагають моделей у п'ять разів більшого розміру.
Тестування моделі
Ми провели всебічне тестування Z-Image Turbo в кількох вимірах. Ось що ми виявили.
Швидкість: SDXL Темп, Якість наступного покоління
На дев'яти кроках Z-Image Turbo генерує зображення приблизно такою ж швидкістю, як SDXL, з звичайними 30 кроками — моделлю, яка була випущена в 2023 році.
Різниця в тому, що якість виходу Z-Image відповідає або перевищує Flux. На ноутбуці з графічним процесором RTX 2060 з 6 ГБ VRAM одне зображення зайняло 34 секунди.
Flux2, в порівнянні, займає приблизно в десять разів більше часу для створення порівнянного зображення.
Реалізм: новий стандарт
Z-Image Turbo є найфотореалістичнішою відкритою моделлю, доступною прямо зараз для споживчого обладнання. Вона перевершує Flux2 в усіх відношеннях, а базова дистильована модель перевершує спеціально налаштовані моделі реалістичності Flux.
Текстура шкіри та волосся виглядає детально та природно. Славнозвісний “підборіддя Флукса” та “пластикова шкіра” в основному зникли. Пропорції тіла постійно міцні, а LoRAs, які ще більше підвищують реалістичність, вже циркулюють.
Генерація тексту: Нарешті, слова, які працюють
Ось де Z-Image справді сяє. Це найкраща відкрита модель для генерації тексту в зображеннях, яка працює на рівні з Nanobanana та Seedream від Google — моделями, що встановлюють сучасний стандарт.
Для носіїв мандаринської мови Z-Image є очевидним вибором. Він розуміє китайську мову на рідній основі та правильно відображає символи.
Порада: Деякі користувачі повідомили, що запити китайською мовою насправді допомагають моделі генерувати кращі результати, і розробники навіть опублікували “покращувач запитів” китайською.
Англійський текст є однаково сильним, з одним винятком: незвичайні довгі слова, такі як “децентралізований”, можуть його заплутати — обмеження, яке також стосується Nanobanana.
** Просторове усвідомлення та дотримання термінів: Виняткове**
Відповідність запитам Z-Image є видатною. Він розуміє стиль, просторові відносини, позиції та пропорції з вражаючою точністю.
Наприклад, візьміть цей запит:
Собака в червоному капелюсі стоїть на телевізорі, на екрані якого написано “Decrypt є найкращим медіа-сайтом про криптовалюту та штучний інтелект у світі”. Зліва знаходиться блондинка в діловому костюмі, що тримає монету; справа стоїть робот на коробці першої допомоги, а за коробкою розташована зелена піраміда. Загальна сцена є сюрреалістичною. Кіт стоїть догори ногами на білому футбольному м'ячі, поруч із собакою. Астронавт з NASA тримає табличку з написом “Emerge” і розташована поруч з роботом.
Як видно, у ньому був лише один друкарський помилок, ймовірно, через змішування мов, але, крім цього, всі елементи точно представлені.
Пропуск кровотечі мінімальний, і складні сцени з кількома об'єктами залишаються узгодженими. Він перевершує Flux за цим показником і тримається на рівні з Nanobanana.
Що далі?
Alibaba планує випустити ще два варіанти: Z-Image-Base для доопрацювання та Z-Image-Edit для змін на основі інструкцій. Якщо вони з'являться з такою ж досконалістю, як Turbo, відкритий ландшафт програмного забезпечення має суттєво змінитися.
Наразі вирок громади чіткий: Z-Image забрав корону у Flux, так само як Flux колись скинув Stable Diffusion.
Справжнім переможцем буде той, хто залучить найбільше розробників для створення на його основі.
Але якщо ви спитаєте нас, так, Z-Image - це наша улюблена домашня орієнтована відкрита модель на даний момент.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Китайський Z-Image скинув Flux з трону як короля AI-мистецтва — і ваш картопляний ПК може це запустити
Коротко
Декодер: Арт, Мода та Розважальний Хаб.
Відкрийте SCENE
Лабораторія Tongyi Alibaba Z-Image Turbo, модель генерації зображень з 6 мільярдами параметрів, вийшла минулого тижня з простим обіцянкою: найсучасніша якість на апаратному забезпеченні, яким ви дійсно володієте.
Ця обіцянка важко приземляється. Через кілька днів після її випуску розробники почали створювати LoRAs — спеціально налаштовані адаптації — з темпом, який вже перевищує Flux2, багатообіцяючий наступник надзвичайно популярної моделі Flux від Black Forest Labs.
Партійний трюк Z-Image – це ефективність. У той час як конкуренти, такі як Flux2, вимагають мінімум 24 ГБ VRAM ( і до 90 ГБ для повної моделі ), Z-Image працює на квантизованих установках з використанням лише 6 ГБ.
Це територія RTX 2060—фактично апаратне забезпечення з 2019 року. Залежно від роздільної здатності, користувачі можуть генерувати зображення всього за 30 секунд.
Для хобістів та незалежних творців це двері, які раніше були замкнені.
Спільнота штучного інтелекту в мистецтві швидко похвалила модель.
“Це те, чим мав бути SD3,” написав користувач Saruhey на CivitAI, найбільшій у світі репозиторії відкритих інструментів AI мистецтва. “Дотримання підказок досить вражаюче… модель, яка може працювати з текстом одразу, змінює правила гри. Це має таку ж, якщо не кращу, потужність, ніж Flux, який сам по собі є чорною магією. Китайці значно випереджають у грі AI.”
Z-Image Turbo був доступний на Civitais з минулого четверга і вже отримав понад 1,200 позитивних відгуків. Для контексту, Flux2—випущений за кілька днів до Z-Image—має 157.
Модель повністю нецензурована з нуля. Знаменитості, вигадані персонажі і так, явний контент - все це розглядається.
Станом на сьогодні, на Civitai є близько 200 ресурсів (файтинів, LoRA, робочих процесів ) для моделі, багато з яких є NSFW.
На Reddit користувач Regular-Forever5876 перевірив межі моделі з запитами на жорстокість і залишився враженим: “Святий корове!!! Ця штука розуміє жорстокість на 100%! Вона генерує її бездоганно,” написав він.
Технічна таємниця Z-Image Turbo полягає в його архітектурі S3-DiT — однострімовому трансформері, який обробляє текстові та зображення дані разом з самого початку, а не об'єднує їх пізніше. Ця тісна інтеграція, разом із агресивними техніками дистиляції, дозволяє моделі досягати якісних стандартів, які зазвичай вимагають моделей у п'ять разів більшого розміру.
Тестування моделі
Ми провели всебічне тестування Z-Image Turbo в кількох вимірах. Ось що ми виявили.
Швидкість: SDXL Темп, Якість наступного покоління
На дев'яти кроках Z-Image Turbo генерує зображення приблизно такою ж швидкістю, як SDXL, з звичайними 30 кроками — моделлю, яка була випущена в 2023 році.
Різниця в тому, що якість виходу Z-Image відповідає або перевищує Flux. На ноутбуці з графічним процесором RTX 2060 з 6 ГБ VRAM одне зображення зайняло 34 секунди.
Flux2, в порівнянні, займає приблизно в десять разів більше часу для створення порівнянного зображення.
Реалізм: новий стандарт
Z-Image Turbo є найфотореалістичнішою відкритою моделлю, доступною прямо зараз для споживчого обладнання. Вона перевершує Flux2 в усіх відношеннях, а базова дистильована модель перевершує спеціально налаштовані моделі реалістичності Flux.
Текстура шкіри та волосся виглядає детально та природно. Славнозвісний “підборіддя Флукса” та “пластикова шкіра” в основному зникли. Пропорції тіла постійно міцні, а LoRAs, які ще більше підвищують реалістичність, вже циркулюють.
Генерація тексту: Нарешті, слова, які працюють
Ось де Z-Image справді сяє. Це найкраща відкрита модель для генерації тексту в зображеннях, яка працює на рівні з Nanobanana та Seedream від Google — моделями, що встановлюють сучасний стандарт.
Для носіїв мандаринської мови Z-Image є очевидним вибором. Він розуміє китайську мову на рідній основі та правильно відображає символи.
Порада: Деякі користувачі повідомили, що запити китайською мовою насправді допомагають моделі генерувати кращі результати, і розробники навіть опублікували “покращувач запитів” китайською.
Англійський текст є однаково сильним, з одним винятком: незвичайні довгі слова, такі як “децентралізований”, можуть його заплутати — обмеження, яке також стосується Nanobanana.
** Просторове усвідомлення та дотримання термінів: Виняткове**
Відповідність запитам Z-Image є видатною. Він розуміє стиль, просторові відносини, позиції та пропорції з вражаючою точністю.
Наприклад, візьміть цей запит:
Собака в червоному капелюсі стоїть на телевізорі, на екрані якого написано “Decrypt є найкращим медіа-сайтом про криптовалюту та штучний інтелект у світі”. Зліва знаходиться блондинка в діловому костюмі, що тримає монету; справа стоїть робот на коробці першої допомоги, а за коробкою розташована зелена піраміда. Загальна сцена є сюрреалістичною. Кіт стоїть догори ногами на білому футбольному м'ячі, поруч із собакою. Астронавт з NASA тримає табличку з написом “Emerge” і розташована поруч з роботом.
Як видно, у ньому був лише один друкарський помилок, ймовірно, через змішування мов, але, крім цього, всі елементи точно представлені.
Пропуск кровотечі мінімальний, і складні сцени з кількома об'єктами залишаються узгодженими. Він перевершує Flux за цим показником і тримається на рівні з Nanobanana.
Що далі?
Alibaba планує випустити ще два варіанти: Z-Image-Base для доопрацювання та Z-Image-Edit для змін на основі інструкцій. Якщо вони з'являться з такою ж досконалістю, як Turbo, відкритий ландшафт програмного забезпечення має суттєво змінитися.
Наразі вирок громади чіткий: Z-Image забрав корону у Flux, так само як Flux колись скинув Stable Diffusion.
Справжнім переможцем буде той, хто залучить найбільше розробників для створення на його основі.
Але якщо ви спитаєте нас, так, Z-Image - це наша улюблена домашня орієнтована відкрита модель на даний момент.