Hình ảnh Z của Trung Quốc đánh bại Flux trở thành vua của nghệ thuật AI—Và máy tính khoai tây của bạn có thể chạy nó

Decrypt

2025-12-02 02:24:01

Tóm tắt

Mô hình Z-Image mới chạy trên 6GB VRAM—phần cứng Flux2 thậm chí không thể chạm tới.
Z-Image đã có hơn 200 nguồn lực cộng đồng và hơn một nghìn đánh giá tích cực so với 157 đánh giá của Flux2.
Nó được xếp hạng là mô hình mã nguồn mở tốt nhất cho đến nay.

Trung tâm Nghệ thuật, Thời trang và Giải trí của Decrypt.

Khám phá SCENE

Mô hình tạo hình ảnh Z-Image Turbo của Alibaba's Tongyi Lab, với 6 tỷ tham số, đã ra mắt vào tuần trước với một lời hứa đơn giản: chất lượng hàng đầu trên phần cứng mà bạn thực sự sở hữu.

Lời hứa đó đang tạo ra tác động mạnh mẽ. Chỉ sau vài ngày phát hành, các nhà phát triển đã nhanh chóng tạo ra LoRAs—các biến thể tùy chỉnh được tinh chỉnh—với tốc độ đã vượt xa Flux2, người kế nhiệm được nhiều người đồn đại của Black Forest Labs cho mô hình Flux nổi tiếng.

Mẹo hay của Z-Image là hiệu quả. Trong khi các đối thủ như Flux2 yêu cầu tối thiểu 24GB VRAM và lên đến 90GB cho mô hình đầy đủ, Z-Image hoạt động trên các thiết lập định lượng với chỉ 6GB.

Đó là vùng lãnh thổ của RTX 2060—về cơ bản là phần cứng từ năm 2019. Tùy thuộc vào độ phân giải, người dùng có thể tạo ra hình ảnh chỉ trong vòng 30 giây.

Đối với những người đam mê và các nhà sáng tạo độc lập, đây là một cánh cửa trước đây đã bị khóa.

Cộng đồng nghệ thuật AI đã nhanh chóng ca ngợi mô hình.

“Đây là những gì SD3 đáng lẽ phải là,” người dùng Saruhey viết trên CivitAI, kho lưu trữ công cụ nghệ thuật AI mã nguồn mở lớn nhất thế giới. “Sự tuân thủ prompt thì khá tinh tế… một mô hình có thể làm văn bản ngay lập tức là một bước ngoặt. Cái này đang chứa đựng sức mạnh tương đương, nếu không muốn nói là tốt hơn, so với Flux, là ma thuật đen tự nó. Người Trung Quốc đang đi trước một bước trong trò chơi AI.”

Z-Image Turbo đã có mặt trên Civitai từ thứ Năm tuần trước và đã nhận được hơn 1.200 đánh giá tích cực. Để so sánh, Flux2—ra mắt vài ngày trước Z-Image—có 157.

Mô hình hoàn toàn không bị kiểm duyệt từ đầu. Người nổi tiếng, nhân vật hư cấu và vâng, nội dung khiêu dâm đều nằm trên bàn.

Tính đến hôm nay, có khoảng 200 tài nguyên (finetunes, LoRAs, workflows) cho mô hình chỉ trên Civitai, nhiều trong số đó là NSFW.

Trên Reddit, người dùng Regular-Forever5876 đã thử nghiệm giới hạn của mô hình với các gợi ý bạo lực và cảm thấy kinh ngạc: “Chúa ơi!!! Cái này hiểu bạo lực quá tốt! Nó tạo ra nó một cách hoàn hảo,” họ viết.

Bí mật kỹ thuật đằng sau Z-Image Turbo là kiến trúc S3-DiT của nó - một transformer dòng đơn xử lý dữ liệu văn bản và hình ảnh cùng lúc từ đầu, thay vì kết hợp chúng sau này. Sự tích hợp chặt chẽ này, kết hợp với các kỹ thuật chưng cất mạnh mẽ, cho phép mô hình đạt được các tiêu chuẩn chất lượng thường yêu cầu các mô hình lớn gấp năm lần.

Kiểm tra mô hình

Chúng tôi đã chạy Z-Image Turbo qua nhiều bài kiểm tra toàn diện trên nhiều khía cạnh. Đây là những gì chúng tôi đã tìm thấy.

Tốc độ: SDXL Pace, Chất lượng thế hệ tiếp theo

Tại chín bước, Z-Image Turbo tạo ra hình ảnh với tốc độ gần như tương đương với SDXL, với 30 bước thông thường—một mô hình được phát hành vào năm 2023.

Sự khác biệt là chất lượng đầu ra của Z-Image tương đương hoặc vượt trội hơn Flux. Trên một chiếc laptop với GPU RTX 2060 có 6GB VRAM, một hình ảnh mất 34 giây.

Flux2, ngược lại, mất khoảng mười lần thời gian để tạo ra một hình ảnh tương đương.

Hiện thực: Tiêu chuẩn mới

Z-Image Turbo là mô hình mã nguồn mở chân thực nhất hiện có cho phần cứng tiêu dùng. Nó vượt trội hơn hoàn toàn so với Flux2, và mô hình chưng cất cơ bản vượt qua các tinh chỉnh chân thực chuyên dụng của Flux.

Kết cấu da và tóc trông chi tiết và tự nhiên. Những “cái cằm Flux” và “da nhựa” nổi tiếng hầu như đã biến mất. Tỷ lệ cơ thể luôn đồng nhất vững chắc, và các LoRA nâng cao tính thực tế còn hơn nữa đã được lưu hành.

Tạo văn bản: Cuối cùng, những từ ngữ có tác dụng

Đây là nơi Z-Image thực sự tỏa sáng. Đây là mô hình mã nguồn mở tốt nhất cho việc tạo văn bản trong hình ảnh, hoạt động ngang bằng với Nanobanana và Seedream của Google—những mô hình đã đặt ra tiêu chuẩn hiện tại.

Đối với người nói tiếng Quan Thoại, Z-Image là sự lựa chọn hiển nhiên. Nó hiểu tiếng Trung một cách bản địa và hiển thị các ký tự một cách chính xác.

Mẹo chuyên nghiệp: Một số người dùng đã báo cáo rằng việc nhắc nhở bằng tiếng Quan Thoại thực sự giúp mô hình tạo ra đầu ra tốt hơn, và các nhà phát triển thậm chí đã công bố một “công cụ cải thiện nhắc nhở” bằng tiếng Quan Thoại.

Văn bản tiếng Anh cũng mạnh mẽ như nhau, với một ngoại lệ: những từ dài không phổ biến như “decentralized” có thể gây khó khăn cho nó—một hạn chế mà Nanobanana cũng gặp phải.

Nhận thức không gian và tuân thủ kịp thời: Xuất sắc

Sự tuân thủ prompt của Z-Image thật xuất sắc. Nó hiểu phong cách, mối quan hệ không gian, vị trí và tỷ lệ với độ chính xác đáng kinh ngạc.

Ví dụ, hãy lấy lời nhắc này:

Một con chó đội mũ đỏ đứng trên một chiếc TV hiển thị dòng chữ “Decrypt là trang web truyền thông tốt nhất thế giới về tiền điện tử và trí tuệ nhân tạo” trên màn hình. Ở bên trái, có một người phụ nữ tóc vàng trong bộ đồ công sở đang cầm một đồng xu; ở bên phải, có một con robot đứng trên một hộp cứu thương, và một kim tự tháp xanh đứng sau hộp. Cảnh vật tổng thể có phần siêu thực. Một con mèo đang đứng ngược ở trên một quả bóng đá trắng, bên cạnh con chó. Một phi hành gia từ NASA cầm một biển báo viết “Emerge” và đứng cạnh con robot.

Như có thể thấy, nó chỉ có một lỗi chính tả, có lẽ do sự pha trộn ngôn ngữ, nhưng ngoài điều đó ra, tất cả các yếu tố đều được thể hiện chính xác.

Sự rò rỉ prompt là tối thiểu, và các cảnh phức tạp với nhiều chủ thể vẫn giữ được tính nhất quán. Nó vượt trội hơn Flux trong tiêu chí này và cạnh tranh ngang ngửa với Nanobanana.

Tiếp theo là gì?

Alibaba dự kiến sẽ phát hành hai biến thể nữa: Z-Image-Base cho việc tinh chỉnh, và Z-Image-Edit cho các sửa đổi dựa trên hướng dẫn. Nếu chúng ra mắt với chất lượng tương tự như Turbo, cảnh quan mã nguồn mở sẽ sớm thay đổi một cách đáng kể.

Hiện tại, phán quyết của cộng đồng là rõ ràng: Z-Image đã chiếm lấy vương miện của Flux, giống như Flux đã từng lật đổ Stable Diffusion.

Người chiến thắng thực sự sẽ là người thu hút được nhiều nhà phát triển nhất để xây dựng trên đó.

Nhưng nếu bạn hỏi chúng tôi, thì Z-Image hiện là mô hình mã nguồn mở định hướng gia đình yêu thích của chúng tôi.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.