Новая модель Z-Image работает на 6 ГБ видеопамяти — оборудование Flux2 даже не может с этим сравниться.
Z-Image уже имеет более 200 сообществ и более тысячи положительных отзывов по сравнению с 157 отзывами Flux2.
Это считается лучшей открытой моделью на сегодняшний день.
Хаб Искусства, Моды и Развлечений Decrypt.
Откройте SCENE
Лаборатория Tongyi Alibaba представила Z-Image Turbo, модель генерации изображений с 6 миллиардами параметров, на прошлой неделе с простым обещанием: качество на уровне лучших образцов на оборудовании, которое у вас действительно есть.
Это обещание оказывается сложным. Через несколько дней после его выпуска разработчики начали выпускать LoRAs — индивидуально настроенные адаптации — с темпом, который уже опережает Flux2, многообещающего преемника широко популярной модели Flux от Black Forest Labs.
Фокус Z-Image заключается в эффективности. В то время как такие конкуренты, как Flux2, требуют минимум 24 ГБ видеопамяти ( и до 90 ГБ для полной модели ), Z-Image работает на квантизированных настройках с минимально возможными 6 ГБ.
Это территория RTX 2060 — в основном оборудование 2019 года. В зависимости от разрешения пользователи могут создавать изображения всего за 30 секунд.
Для хобби-любителей и независимых создателей это дверь, которая раньше была закрыта.
Сообщество искусственного интеллекта быстро похвалило модель.
“Вот что должно было быть SD3,” написал пользователь Saruhey на CivitAI, крупнейшем в мире репозитории инструментов для создания искусственного интеллекта с открытым исходным кодом. “Соблюдение подсказок просто изысканное… модель, которая может работать с текстом немедленно, меняет правила игры. Эта штука обладает такой же, если не большей, мощностью, чем Flux, который сам по себе является черной магией. Китайцы значительно опережают остальных в игре ИИ.”
Z-Image Turbo доступен на Civitai с прошлого четверга и уже получил более 1200 положительных отзывов. Для контекста, Flux2—выпущенный за несколько дней до Z-Image—имеет 157.
Модель полностью нецензурирована с нуля. Знаменитости, вымышленные персонажи и да, откровенный контент - всё это возможно.
На сегодняшний день на Civitai есть около 200 ресурсов (финетюнов, LoRAs, рабочих процессов) для модели, многие из которых являются NSFW.
На Reddit пользователь Regular-Forever5876 испытал пределы модели с помощью гнусных подсказок и остался поражен: “Святая корова!!! Эта штука понимает гнусность AF! Она генерирует это безупречно,” написали они.
Техническая тайна Z-Image Turbo заключается в его архитектуре S3-DiT — однонаправленном трансформере, который обрабатывает текстовые и изображенческие данные вместе с самого начала, а не объединяет их позже. Эта тесная интеграция, наряду с агрессивными техниками дистилляции, позволяет модели достигать качественных стандартов, которые обычно требуют моделей в пять раз большего размера.
Тестирование модели
Мы провели обширное тестирование Z-Image Turbo по нескольким параметрам. Вот что мы обнаружили.
Скорость: SDXL Темп, Качество следующего поколения
На девяти шагах Z-Image Turbo генерирует изображения примерно с такой же скоростью, как SDXL, с обычными 30 шагами — модель, которая вышла в 2023 году.
Разница в том, что качество вывода Z-Image соответствует или превосходит Flux. На ноутбуке с графическим процессором RTX 2060 с 6 ГБ видеопамяти одно изображение заняло 34 секунды.
Flux2, в сравнении, требует примерно в десять раз больше времени для генерации сопоставимого изображения.
Реализм: Новый эталон
Z-Image Turbo является самой фотореалистичной открытой моделью, доступной в настоящее время для потребительского оборудования. Она превосходит Flux2, а базовая дистиллированная модель превосходит специальные тонкие настройки реализма Flux.
Текстура кожи и волос выглядит детализированной и естественной. Печально известные “чаша Флюкса” и “пластиковая кожа” в основном исчезли. Пропорции тела постоянно Solid, а LoRAs, которые еще больше усиливают реализм, уже циркулируют.
Генерация текста: Наконец, слова, которые работают
Здесь Z-Image действительно блестит. Это лучшая открытая модель для генерации текста в изображениях, работающая на уровне таких моделей, как Google's Nanobanana и Seedream — моделей, которые устанавливают текущий стандарт.
Для носителей мандаринского диалекта Z-Image является очевидным выбором. Он понимает китайский язык на родном уровне и правильно отображает символы.
Совет: Некоторые пользователи сообщили, что использование подсказок на мандарине действительно помогает модели выдавать лучшие результаты, и разработчики даже опубликовали “усилитель подсказок” на мандарине.
Английский текст также силен, за исключением одного: редкие длинные слова, такие как “децентрализованный”, могут его запутать — ограничение, которое также есть у Nanobanana.
Пространственное восприятие и оперативное соблюдение: Превосходно
У Z-Image выдающееся соблюдение подсказок. Он понимает стиль, пространственные отношения, позиции и пропорции с замечательной точностью.
Например, возьмите этот запрос:
Собака в красной шляпе стоит на телевизоре, на экране которого написаны слова “Decrypt 是世界上最好的加密货币与人工智能媒体网站”. Слева находится блондинка в деловом костюме, держащая монету; справа робот стоит на аптечке, а за коробкой находится зеленая пирамида. Общая сцена сюрреалистична. Кот стоит вверх ногами на белом футбольном мяче рядом с собакой. Астронавт от NASA держит знак с надписью “Emerge” и находится рядом с роботом.
Как заметно, в нем была только одна опечатка, вероятно, из-за смешения языков, но кроме этого все элементы точно представлены.
Кровотечение подсказок минимально, и сложные сцены с несколькими объектами остаются последовательными. Он превосходит Flux по этой метрике и достойно конкурирует с Nanobanana.
Что дальше?
Alibaba планирует выпустить еще два варианта: Z-Image-Base для дообучения и Z-Image-Edit для модификаций на основе инструкций. Если они выйдут с такой же отделкой, как Turbo, открытый ландшафт собирается кардинально измениться.
На данный момент вердикт сообщества ясен: Z-Image завоевал корону Flux, так же как когда-то Flux сверг Stable Diffusion.
Настоящий победитель будет тот, кто привлечет больше всего разработчиков для создания на его основе.
Но если бы вы спросили нас, да, Z-Image — наша любимая ориентированная на дом открытая модель на данный момент.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Китайская Z-Image свергла Flux с пьедестала как короля ИИ-искусства — и ваш картофельный ПК может это запустить
Вкратце
Хаб Искусства, Моды и Развлечений Decrypt.
Откройте SCENE
Лаборатория Tongyi Alibaba представила Z-Image Turbo, модель генерации изображений с 6 миллиардами параметров, на прошлой неделе с простым обещанием: качество на уровне лучших образцов на оборудовании, которое у вас действительно есть.
Это обещание оказывается сложным. Через несколько дней после его выпуска разработчики начали выпускать LoRAs — индивидуально настроенные адаптации — с темпом, который уже опережает Flux2, многообещающего преемника широко популярной модели Flux от Black Forest Labs.
Фокус Z-Image заключается в эффективности. В то время как такие конкуренты, как Flux2, требуют минимум 24 ГБ видеопамяти ( и до 90 ГБ для полной модели ), Z-Image работает на квантизированных настройках с минимально возможными 6 ГБ.
Это территория RTX 2060 — в основном оборудование 2019 года. В зависимости от разрешения пользователи могут создавать изображения всего за 30 секунд.
Для хобби-любителей и независимых создателей это дверь, которая раньше была закрыта.
Сообщество искусственного интеллекта быстро похвалило модель.
“Вот что должно было быть SD3,” написал пользователь Saruhey на CivitAI, крупнейшем в мире репозитории инструментов для создания искусственного интеллекта с открытым исходным кодом. “Соблюдение подсказок просто изысканное… модель, которая может работать с текстом немедленно, меняет правила игры. Эта штука обладает такой же, если не большей, мощностью, чем Flux, который сам по себе является черной магией. Китайцы значительно опережают остальных в игре ИИ.”
Z-Image Turbo доступен на Civitai с прошлого четверга и уже получил более 1200 положительных отзывов. Для контекста, Flux2—выпущенный за несколько дней до Z-Image—имеет 157.
Модель полностью нецензурирована с нуля. Знаменитости, вымышленные персонажи и да, откровенный контент - всё это возможно.
На сегодняшний день на Civitai есть около 200 ресурсов (финетюнов, LoRAs, рабочих процессов) для модели, многие из которых являются NSFW.
На Reddit пользователь Regular-Forever5876 испытал пределы модели с помощью гнусных подсказок и остался поражен: “Святая корова!!! Эта штука понимает гнусность AF! Она генерирует это безупречно,” написали они.
Техническая тайна Z-Image Turbo заключается в его архитектуре S3-DiT — однонаправленном трансформере, который обрабатывает текстовые и изображенческие данные вместе с самого начала, а не объединяет их позже. Эта тесная интеграция, наряду с агрессивными техниками дистилляции, позволяет модели достигать качественных стандартов, которые обычно требуют моделей в пять раз большего размера.
Тестирование модели
Мы провели обширное тестирование Z-Image Turbo по нескольким параметрам. Вот что мы обнаружили.
Скорость: SDXL Темп, Качество следующего поколения
На девяти шагах Z-Image Turbo генерирует изображения примерно с такой же скоростью, как SDXL, с обычными 30 шагами — модель, которая вышла в 2023 году.
Разница в том, что качество вывода Z-Image соответствует или превосходит Flux. На ноутбуке с графическим процессором RTX 2060 с 6 ГБ видеопамяти одно изображение заняло 34 секунды.
Flux2, в сравнении, требует примерно в десять раз больше времени для генерации сопоставимого изображения.
Реализм: Новый эталон
Z-Image Turbo является самой фотореалистичной открытой моделью, доступной в настоящее время для потребительского оборудования. Она превосходит Flux2, а базовая дистиллированная модель превосходит специальные тонкие настройки реализма Flux.
Текстура кожи и волос выглядит детализированной и естественной. Печально известные “чаша Флюкса” и “пластиковая кожа” в основном исчезли. Пропорции тела постоянно Solid, а LoRAs, которые еще больше усиливают реализм, уже циркулируют.
Генерация текста: Наконец, слова, которые работают
Здесь Z-Image действительно блестит. Это лучшая открытая модель для генерации текста в изображениях, работающая на уровне таких моделей, как Google's Nanobanana и Seedream — моделей, которые устанавливают текущий стандарт.
Для носителей мандаринского диалекта Z-Image является очевидным выбором. Он понимает китайский язык на родном уровне и правильно отображает символы.
Совет: Некоторые пользователи сообщили, что использование подсказок на мандарине действительно помогает модели выдавать лучшие результаты, и разработчики даже опубликовали “усилитель подсказок” на мандарине.
Английский текст также силен, за исключением одного: редкие длинные слова, такие как “децентрализованный”, могут его запутать — ограничение, которое также есть у Nanobanana.
Пространственное восприятие и оперативное соблюдение: Превосходно
У Z-Image выдающееся соблюдение подсказок. Он понимает стиль, пространственные отношения, позиции и пропорции с замечательной точностью.
Например, возьмите этот запрос:
Собака в красной шляпе стоит на телевизоре, на экране которого написаны слова “Decrypt 是世界上最好的加密货币与人工智能媒体网站”. Слева находится блондинка в деловом костюме, держащая монету; справа робот стоит на аптечке, а за коробкой находится зеленая пирамида. Общая сцена сюрреалистична. Кот стоит вверх ногами на белом футбольном мяче рядом с собакой. Астронавт от NASA держит знак с надписью “Emerge” и находится рядом с роботом.
Как заметно, в нем была только одна опечатка, вероятно, из-за смешения языков, но кроме этого все элементы точно представлены.
Кровотечение подсказок минимально, и сложные сцены с несколькими объектами остаются последовательными. Он превосходит Flux по этой метрике и достойно конкурирует с Nanobanana.
Что дальше?
Alibaba планирует выпустить еще два варианта: Z-Image-Base для дообучения и Z-Image-Edit для модификаций на основе инструкций. Если они выйдут с такой же отделкой, как Turbo, открытый ландшафт собирается кардинально измениться.
На данный момент вердикт сообщества ясен: Z-Image завоевал корону Flux, так же как когда-то Flux сверг Stable Diffusion.
Настоящий победитель будет тот, кто привлечет больше всего разработчиков для создания на его основе.
Но если бы вы спросили нас, да, Z-Image — наша любимая ориентированная на дом открытая модель на данный момент.