Z-Image China Menyisihkan Flux sebagai Raja Seni AI—Dan PC Kentang Anda Dapat Menjalankannya

Decrypt

2025-12-02 02:24:01

Singkatnya

Model Z-Image baru berjalan di 6GB VRAM—hardware Flux2 bahkan tidak bisa menyentuh.
Z-Image sudah memiliki lebih dari 200 sumber daya komunitas dan lebih dari seribu ulasan positif dibandingkan dengan 157 ulasan Flux2.
Ini dianggap sebagai model sumber terbuka terbaik hingga saat ini.

Pusat Seni, Mode, dan Hiburan Decrypt.

Temukan SCENE

Tongyi Lab Z-Image Turbo dari Alibaba, sebuah model generasi gambar dengan 6 miliar parameter, diluncurkan minggu lalu dengan janji sederhana: kualitas terbaik pada perangkat keras yang sebenarnya Anda miliki.

Janji itu datang dengan keras. Beberapa hari setelah dirilis, para pengembang sudah memproduksi LoRA—adaptasi yang disesuaikan dan dihaluskan—dengan kecepatan yang sudah melampaui Flux2, penerus yang sangat dibicarakan dari model Flux yang sangat populer oleh Black Forest Labs.

Trik andalan Z-Image adalah efisiensi. Sementara pesaing seperti Flux2 membutuhkan minimum 24GB VRAM ( dan hingga 90GB untuk model penuh ), Z-Image berjalan pada pengaturan kuantisasi dengan hanya 6GB.

Itu adalah wilayah RTX 2060—sebenarnya perangkat keras dari tahun 2019. Tergantung pada resolusi, pengguna dapat menghasilkan gambar dalam waktu hanya 30 detik.

Bagi hobiis dan kreator indie, ini adalah pintu yang sebelumnya terkunci.

Komunitas seni AI cepat memuji model tersebut.

“Inilah yang seharusnya menjadi SD3,” tulis pengguna Saruhey di CivitAI, repositori terbesar di dunia untuk alat seni AI sumber terbuka. “Kepatuhan terhadap promptnya cukup luar biasa… sebuah model yang dapat melakukan teks secara langsung adalah perubahan besar. Hal ini memiliki kekuatan yang sama, jika tidak lebih baik, daripada Flux yang merupakan sihir hitam itu sendiri. Orang-orang Tiongkok jauh lebih maju dalam permainan AI.”

Z-Image Turbo telah tersedia di Civitais sejak Kamis lalu dan telah mendapatkan lebih dari 1.200 ulasan positif. Sebagai konteks, Flux2—yang dirilis beberapa hari sebelum Z-Image—memiliki 157.

Model ini sepenuhnya tidak disensor dari awal. Selebriti, karakter fiksi, dan ya, konten eksplisit semuanya diperbolehkan.

Hingga hari ini, ada sekitar 200 sumber (finetunes, LoRAs, workflows) untuk model di Civitai saja, banyak di antaranya adalah NSFW.

Di Reddit, pengguna Regular-Forever5876 menguji batas model dengan prompt gore dan merasa terkejut: “Sungguh luar biasa!!! Alat ini benar-benar mengerti gore AF! Ia menghasilkan dengan sempurna,” tulis mereka.

Rahasia teknis di balik Z-Image Turbo adalah arsitektur S3-DiT-nya—sebuah transformer aliran tunggal yang memproses data teks dan gambar secara bersamaan sejak awal, bukan menggabungkannya nanti. Integrasi yang erat ini, dikombinasikan dengan teknik distilasi yang agresif, memungkinkan model untuk memenuhi tolok ukur kualitas yang biasanya memerlukan model lima kali ukurannya.

Menguji model

Kami menjalankan Z-Image Turbo melalui pengujian menyeluruh di berbagai dimensi. Berikut adalah temuan kami.

Kecepatan: SDXL Pace, Kualitas Generasi Berikutnya

Pada sembilan langkah, Z-Image Turbo menghasilkan gambar dengan kecepatan yang hampir sama dengan SDXL, dengan 30 langkah biasa—sebuah model yang dirilis kembali pada tahun 2023.

Perbedaannya adalah bahwa kualitas output Z-Image sebanding atau lebih baik daripada Flux. Di laptop dengan GPU RTX 2060 dengan 6GB VRAM, satu gambar memerlukan waktu 34 detik.

Flux2, dibandingkan, memerlukan waktu sekitar sepuluh kali lebih lama untuk menghasilkan gambar yang sebanding.

Realisme: Tolok Ukur Baru

Z-Image Turbo adalah model open-source yang paling fotorealistik yang tersedia saat ini untuk perangkat keras kelas konsumen. Ini mengungguli Flux2 secara langsung, dan model dasar yang disuling melampaui penyempurnaan realisme khusus dari Flux.

Tekstur kulit dan rambut terlihat detail dan alami. “Flux chin” yang terkenal dan “kulit plastik” sebagian besar sudah hilang. Proporsi tubuh secara konsisten solid, dan LoRAs yang meningkatkan realisme bahkan lebih jauh sudah beredar.

Generasi teks: Akhirnya, kata-kata yang efektif

Di sinilah Z-Image benar-benar bersinar. Ini adalah model open-source terbaik untuk generasi teks dalam gambar, berkinerja setara dengan Nanobanana dan Seedream dari Google—model-model yang menetapkan standar saat ini.

Bagi penutur Mandarin, Z-Image adalah pilihan yang jelas. Ia memahami bahasa Mandarin secara asli dan menampilkan karakter dengan benar.

Tip pro: Beberapa pengguna melaporkan bahwa memberikan perintah dalam bahasa Mandarin sebenarnya membantu model menghasilkan keluaran yang lebih baik, dan para pengembang bahkan menerbitkan “peningkat perintah” dalam bahasa Mandarin.

Teks bahasa Inggris sama kuatnya, dengan satu pengecualian: kata-kata panjang yang tidak umum seperti “terdesentralisasi” dapat menyulitkannya—sebuah keterbatasan yang juga dimiliki oleh Nanobanana.

Kesadaran spasial dan kepatuhan terhadap instruksi: Luar biasa

Kepatuhan prompt Z-Image sangat luar biasa. Ia memahami gaya, hubungan spasial, posisi, dan proporsi dengan ketelitian yang luar biasa.

Sebagai contoh, ambil prompt ini:

Seekor anjing dengan topi merah berdiri di atas TV yang menampilkan kata-kata “Decrypt 是世界上最好的加密货币与人工智能媒体网站” di layar. Di sebelah kiri, ada seorang wanita berambut pirang dalam setelan bisnis yang memegang koin; di sebelah kanan, ada robot yang berdiri di atas kotak P3K, dan sebuah piramida hijau berdiri di belakang kotak tersebut. Pemandangan keseluruhan terlihat surealis. Seekor kucing berdiri terbalik di atas bola sepak putih, di samping anjing. Seorang Astronot dari NASA memegang papan yang bertuliskan “Emerge” dan diletakkan di samping robot.

Sebagaimana yang terlihat, hanya ada satu kesalahan ketik, mungkin karena campuran bahasa, tetapi selain itu, semua elemen diwakili dengan akurat.

Pendaran prompt minimal, dan adegan kompleks dengan banyak subjek tetap koheren. Ini mengalahkan Flux dalam metrik ini dan mampu bersaing dengan Nanobanana.

Apa selanjutnya?

Alibaba berencana untuk merilis dua varian lagi: Z-Image-Base untuk fine-tuning, dan Z-Image-Edit untuk modifikasi berbasis instruksi. Jika mereka hadir dengan kualitas yang sama seperti Turbo, lanskap open-source akan berubah secara dramatis.

Untuk saat ini, keputusan komunitas jelas: Z-Image telah mengambil mahkota Flux, seperti Flux yang pernah menjatuhkan Stable Diffusion.

Pemenang sejati adalah siapa pun yang dapat menarik paling banyak pengembang untuk membangun di atasnya.

Tapi jika Anda bertanya kepada kami, ya, Z-Image adalah model open source yang paling kami sukai saat ini yang berorientasi rumah.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.