A Z-Image da China destrona o Flux como Rei da Arte AI—E o Seu PC de Batata Pode Executá-lo

Decrypt

2025-12-02 02:24:01

Em resumo

O novo modelo Z-Image funciona com 6GB de VRAM — o hardware Flux2 nem se compara.
Z-Image já tem mais de 200 recursos comunitários e mais de mil avaliações positivas em comparação com as 157 avaliações do Flux2.
É classificado como o melhor modelo de código aberto até à data.

Hub de Arte, Moda e Entretenimento da Decrypt.

Descubra SCENE

O Z-Image Turbo do Tongyi Lab da Alibaba, um modelo de geração de imagens com 6 bilhões de parâmetros, foi lançado na semana passada com uma promessa simples: qualidade de ponta em hardware que você realmente possui.

Essa promessa está aterrissando com força. Poucos dias após seu lançamento, os desenvolvedores já estavam produzindo LoRAs—adaptações personalizadas e ajustadas—a um ritmo que já supera o Flux2, o sucessor muito badalado do modelo Flux, que foi extremamente popular.

O truque de festa do Z-Image é a eficiência. Enquanto concorrentes como Flux2 exigem 24GB de VRAM no mínimo ( e até 90GB para o modelo completo ), o Z-Image opera em configurações quantizadas com apenas 6GB.

Isso é território da RTX 2060—basicamente hardware de 2019. Dependendo da resolução, os usuários podem gerar imagens em apenas 30 segundos.

Para hobbyistas e criadores independentes, esta é uma porta que estava anteriormente trancada.

A comunidade de arte AI foi rápida a elogiar o modelo.

“Isto é o que o SD3 deveria ser,” escreveu o utilizador Saruhey no CivitAI, o maior repositório mundial de ferramentas de arte AI de código aberto. “A adesão ao prompt é bastante requintada… um modelo que pode fazer texto imediatamente é revolucionário. Esta coisa tem o mesmo, se não melhor, poder do que o Flux, que é magia negra por si só. Os chineses estão muito à frente no jogo da IA.”

O Z-Image Turbo está disponível na Civitai desde a última quinta-feira e já recebeu mais de 1.200 avaliações positivas. Para contextualizar, o Flux2—lançado alguns dias antes do Z-Image—tem 157.

O modelo é totalmente não censurado desde o início. Celebridades, personagens fictícios e sim, conteúdo explícito estão todos em jogo.

A partir de hoje, existem cerca de 200 recursos (finetunes, LoRAs, workflows) para o modelo apenas no Civitai, muitos dos quais são NSFW.

No Reddit, o utilizador Regular-Forever5876 testou os limites do modelo com prompts de gore e ficou impressionado: “Meu Deus!!! Esta coisa entende gore AF! Gera-o perfeitamente,” escreveram.

O segredo técnico por trás do Z-Image Turbo é a sua arquitetura S3-DiT—um transformador de fluxo único que processa dados de texto e imagem juntos desde o início, em vez de fundi-los mais tarde. Esta integração estreita, combinada com técnicas de destilação agressivas, permite que o modelo atinja benchmarks de qualidade que normalmente exigiriam modelos cinco vezes maiores.

Testando o modelo

Realizámos testes extensivos ao Z-Image Turbo em várias dimensões. Aqui está o que encontramos.

Velocidade: SDXL Ritmo, Qualidade de Próxima Geração

Em nove passos, o Z-Image Turbo gera imagens a uma velocidade aproximadamente igual à do SDXL, com os habituais 30 passos—um modelo que foi lançado em 2023.

A diferença é que a qualidade de saída do Z-Image corresponde ou supera a do Flux. Em um laptop com uma GPU RTX 2060 com 6GB de VRAM, uma imagem levou 34 segundos.

O Flux2, por comparação, demora aproximadamente dez vezes mais a gerar uma imagem comparável.

Realismo: O novo padrão

Z-Image Turbo é o modelo open-source mais fotorrealista disponível atualmente para hardware de consumo. Ele supera o Flux2 de forma clara, e o modelo destilado base supera as afinagens de realismo dedicadas do Flux.

A textura da pele e do cabelo parece detalhada e natural. O infame “queixo Flux” e a “pele plástica” estão quase desaparecidos. As proporções do corpo são consistentemente sólidas, e os LoRAs que aumentam ainda mais o realismo já estão a circular.

Geração de texto: Finalmente, palavras que funcionam

É aqui que o Z-Image realmente brilha. É o melhor modelo de código aberto para geração de texto em imagem, funcionando ao nível do Nanobanana e Seedream do Google—modelos que definem o padrão atual.

Para falantes de mandarim, o Z-Image é a escolha óbvia. Ele entende chinês nativamente e renderiza caracteres corretamente.

Dica profissional: Alguns usuários relataram que fazer perguntas em mandarim realmente ajuda o modelo a produzir melhores resultados, e os desenvolvedores até publicaram um “melhorador de prompts” em mandarim.

O texto em inglês é igualmente forte, com uma exceção: palavras longas incomuns como “descentralizado” podem causar dificuldades—uma limitação que o Nanobanana também compartilha.

Consciência espacial e adesão a prazos: Excecional

A aderência aos prompts do Z-Image é excepcional. Ele entende estilo, relações espaciais, posições e proporções com uma precisão notável.

Por exemplo, pegue este aviso:

Um cão com um chapéu vermelho em cima de uma televisão mostrando as palavras “Decrypt 是世界上最好的加密货币与人工智能媒体网站” na tela. À esquerda, há uma mulher loira em um traje de negócios segurando uma moeda; à direita, há um robô em cima de uma caixa de primeiros socorros, e uma pirâmide verde está atrás da caixa. A paisagem geral é surreal. Um gato está de cabeça para baixo em cima de uma bola de futebol branca, ao lado do cão. Um astronauta da NASA segura um cartaz que diz “Emerge” e está colocado ao lado do robô.

Como é notável, teve apenas um erro de digitação, provavelmente devido à mistura de idiomas, mas para além disso, todos os elementos estão representados com precisão.

O sangramento de prompt é mínimo, e cenas complexas com múltiplos sujeitos permanecem coerentes. Supera o Flux nessa métrica e mantém-se à altura do Nanobanana.

O que vem a seguir?

A Alibaba planeia lançar mais duas variantes: Z-Image-Base para ajuste fino e Z-Image-Edit para modificações baseadas em instruções. Se chegarem com o mesmo polimento que o Turbo, o panorama do código aberto está prestes a mudar dramaticamente.

Por agora, o veredicto da comunidade é claro: Z-Image tomou a coroa do Flux, assim como o Flux uma vez destronou o Stable Diffusion.

O verdadeiro vencedor será quem atrair mais desenvolvedores para construir em cima disso.

Mas se você nos perguntasse, sim, o Z-Image é o nosso modelo de código aberto orientado para o lar favorito no momento.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.