Отсканируйте, чтобы загрузить приложение Gate
qrCode
Больше вариантов загрузки
Не напоминай мне больше сегодня.

Китайская Z-Image свергла Flux с пьедестала как короля ИИ-искусства — и ваш картофельный ПК может это запустить

Вкратце

  • Новая модель Z-Image работает на 6 ГБ видеопамяти — оборудование Flux2 даже не может с этим сравниться.
  • Z-Image уже имеет более 200 сообществ и более тысячи положительных отзывов по сравнению с 157 отзывами Flux2.
  • Это считается лучшей открытой моделью на сегодняшний день.

Хаб Искусства, Моды и Развлечений Decrypt.


Откройте SCENE

Лаборатория Tongyi Alibaba представила Z-Image Turbo, модель генерации изображений с 6 миллиардами параметров, на прошлой неделе с простым обещанием: качество на уровне лучших образцов на оборудовании, которое у вас действительно есть.

Это обещание оказывается сложным. Через несколько дней после его выпуска разработчики начали выпускать LoRAs — индивидуально настроенные адаптации — с темпом, который уже опережает Flux2, многообещающего преемника широко популярной модели Flux от Black Forest Labs.

Фокус Z-Image заключается в эффективности. В то время как такие конкуренты, как Flux2, требуют минимум 24 ГБ видеопамяти ( и до 90 ГБ для полной модели ), Z-Image работает на квантизированных настройках с минимально возможными 6 ГБ.

Это территория RTX 2060 — в основном оборудование 2019 года. В зависимости от разрешения пользователи могут создавать изображения всего за 30 секунд.

Для хобби-любителей и независимых создателей это дверь, которая раньше была закрыта.

Сообщество искусственного интеллекта быстро похвалило модель.

“Вот что должно было быть SD3,” написал пользователь Saruhey на CivitAI, крупнейшем в мире репозитории инструментов для создания искусственного интеллекта с открытым исходным кодом. “Соблюдение подсказок просто изысканное… модель, которая может работать с текстом немедленно, меняет правила игры. Эта штука обладает такой же, если не большей, мощностью, чем Flux, который сам по себе является черной магией. Китайцы значительно опережают остальных в игре ИИ.”

Z-Image Turbo доступен на Civitai с прошлого четверга и уже получил более 1200 положительных отзывов. Для контекста, Flux2—выпущенный за несколько дней до Z-Image—имеет 157.

Модель полностью нецензурирована с нуля. Знаменитости, вымышленные персонажи и да, откровенный контент - всё это возможно.

На сегодняшний день на Civitai есть около 200 ресурсов (финетюнов, LoRAs, рабочих процессов) для модели, многие из которых являются NSFW.

На Reddit пользователь Regular-Forever5876 испытал пределы модели с помощью гнусных подсказок и остался поражен: “Святая корова!!! Эта штука понимает гнусность AF! Она генерирует это безупречно,” написали они.

Техническая тайна Z-Image Turbo заключается в его архитектуре S3-DiT — однонаправленном трансформере, который обрабатывает текстовые и изображенческие данные вместе с самого начала, а не объединяет их позже. Эта тесная интеграция, наряду с агрессивными техниками дистилляции, позволяет модели достигать качественных стандартов, которые обычно требуют моделей в пять раз большего размера.

Тестирование модели

Мы провели обширное тестирование Z-Image Turbo по нескольким параметрам. Вот что мы обнаружили.

Скорость: SDXL Темп, Качество следующего поколения

На девяти шагах Z-Image Turbo генерирует изображения примерно с такой же скоростью, как SDXL, с обычными 30 шагами — модель, которая вышла в 2023 году.

Разница в том, что качество вывода Z-Image соответствует или превосходит Flux. На ноутбуке с графическим процессором RTX 2060 с 6 ГБ видеопамяти одно изображение заняло 34 секунды.

Flux2, в сравнении, требует примерно в десять раз больше времени для генерации сопоставимого изображения.

Реализм: Новый эталон

Z-Image Turbo является самой фотореалистичной открытой моделью, доступной в настоящее время для потребительского оборудования. Она превосходит Flux2, а базовая дистиллированная модель превосходит специальные тонкие настройки реализма Flux.

Текстура кожи и волос выглядит детализированной и естественной. Печально известные “чаша Флюкса” и “пластиковая кожа” в основном исчезли. Пропорции тела постоянно Solid, а LoRAs, которые еще больше усиливают реализм, уже циркулируют.

Генерация текста: Наконец, слова, которые работают

Здесь Z-Image действительно блестит. Это лучшая открытая модель для генерации текста в изображениях, работающая на уровне таких моделей, как Google's Nanobanana и Seedream — моделей, которые устанавливают текущий стандарт.

Для носителей мандаринского диалекта Z-Image является очевидным выбором. Он понимает китайский язык на родном уровне и правильно отображает символы.

Совет: Некоторые пользователи сообщили, что использование подсказок на мандарине действительно помогает модели выдавать лучшие результаты, и разработчики даже опубликовали “усилитель подсказок” на мандарине.

Английский текст также силен, за исключением одного: редкие длинные слова, такие как “децентрализованный”, могут его запутать — ограничение, которое также есть у Nanobanana.

Пространственное восприятие и оперативное соблюдение: Превосходно

У Z-Image выдающееся соблюдение подсказок. Он понимает стиль, пространственные отношения, позиции и пропорции с замечательной точностью.

Например, возьмите этот запрос:

Собака в красной шляпе стоит на телевизоре, на экране которого написаны слова “Decrypt 是世界上最好的加密货币与人工智能媒体网站”. Слева находится блондинка в деловом костюме, держащая монету; справа робот стоит на аптечке, а за коробкой находится зеленая пирамида. Общая сцена сюрреалистична. Кот стоит вверх ногами на белом футбольном мяче рядом с собакой. Астронавт от NASA держит знак с надписью “Emerge” и находится рядом с роботом.

Как заметно, в нем была только одна опечатка, вероятно, из-за смешения языков, но кроме этого все элементы точно представлены.

Кровотечение подсказок минимально, и сложные сцены с несколькими объектами остаются последовательными. Он превосходит Flux по этой метрике и достойно конкурирует с Nanobanana.

Что дальше?

Alibaba планирует выпустить еще два варианта: Z-Image-Base для дообучения и Z-Image-Edit для модификаций на основе инструкций. Если они выйдут с такой же отделкой, как Turbo, открытый ландшафт собирается кардинально измениться.

На данный момент вердикт сообщества ясен: Z-Image завоевал корону Flux, так же как когда-то Flux сверг Stable Diffusion.

Настоящий победитель будет тот, кто привлечет больше всего разработчиков для создания на его основе.

Но если бы вы спросили нас, да, Z-Image — наша любимая ориентированная на дом открытая модель на данный момент.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Горячее на Gate FunПодробнее
  • РК:$3.6KДержатели:1
    0.00%
  • РК:$3.83KДержатели:6
    0.99%
  • РК:$3.86KДержатели:2
    1.97%
  • РК:$3.62KДержатели:1
    0.00%
  • РК:$3.63KДержатели:1
    0.20%
  • Закрепить