ChatGPT Hình ảnh 2.0 dùng như thế nào? Thử nghiệm menu mì bò, bìa tạp chí, hiệu quả phổ biến kiến thức đa ngôn ngữ

robot
Đang tạo bản tóm tắt

OpenAI ra mắt công cụ tạo hình ảnh ChatGPT Images 2.0, nổi bật với khả năng xử lý bố cục phức tạp và đa ngôn ngữ (bao gồm tiếng Trung), bài viết sẽ giới thiệu toàn diện về các chức năng, đặc điểm của Images 2.0, các gói miễn phí và trả phí, cùng kết quả thử nghiệm tạo hình.

ChatGPT Images 2.0 là gì? Các chức năng chính, đặc điểm bạn cần biết!

Có một công cụ tạo hình ảnh AI cạnh tranh với Gemini Nano Banana 2 đã xuất hiện? OpenAI công bố ra mắt ChatGPT Images 2.0, được vận hành bởi mô hình GPT Image 2 mới, tập trung vào khả năng chọn lựa, sắp xếp và tiết lộ thông tin qua hình ảnh, dưới đây là 3 đặc điểm lớn của ChatGPT Images 2.0:

Khả năng xử lý bố cục mạnh mẽ và đa ngôn ngữ

Trước tiên, một đặc điểm rõ ràng là khả năng xử lý bố cục và đa ngôn ngữ của ChatGPT Images 2.0 đã được nâng cao đáng kể.

Các phương tiện truyền thông nước ngoài như Techcrunch chỉ ra rằng, các công cụ tạo hình AI trước đây phần lớn dựa vào mô hình khuếch tán, thường gặp khó khăn trong việc viết chính xác chữ, còn ChatGPT Images 2.0 có thể thể hiện chính xác các chi tiết nhỏ như chữ viết, biểu tượng và giao diện người dùng.

OpenAI cho biết, Images 2.0 đã có bước tiến rõ rệt trong xử lý các ngôn ngữ không dùng chữ Latinh, bao gồm tiếng Trung, Nhật, Hàn, Hindi và Bengal, đều có thể tạo ra hình ảnh rõ nét cao.

Nguồn hình ảnh: Ví dụ tạo hình chính thức của OpenAI ChatGPT Images 2.0

Khả năng suy nghĩ mới và tìm kiếm trực tuyến

Ngoài khả năng xử lý bố cục và đa ngôn ngữ, ChatGPT Images 2.0 còn cung cấp khả năng suy nghĩ mới, có thể hỗ trợ tạo hình qua việc tìm kiếm thông tin trực tuyến theo thời gian thực. Mô hình này cập nhật kiến thức đến tháng 12 năm 2025, giúp tạo nội dung liên quan đến các sự kiện gần đây.

Nguồn hình ảnh: Ví dụ tạo hình chính thức của OpenAI ChatGPT Images 2.0

Hỗ trợ độ phân giải 2K và đa dạng tỷ lệ khung hình

ChatGPT Images 2.0 hỗ trợ tạo hình ảnh độ phân giải cao tới 2K, đồng thời cung cấp nhiều lựa chọn tỷ lệ khung hình hơn, từ rộng 3:1 đến dài 1:3 đều có thể chọn.

Trưởng nhóm nghiên cứu của OpenAI, Boyuan Chen, cho biết, kiến trúc của Images 2.0 đã được cải tiến toàn diện, là một mô hình tổng quát, chỉ cần một lời nhắc đơn giản bằng văn bản là có thể xử lý chuyển đổi góc nhìn theo phong cách 3D và suy luận không gian phức tạp.

Chức năng miễn phí và trả phí của ChatGPT Images 2.0 dành cho người dùng

Tiền nào của nấy? Các cấp độ người dùng trả phí của ChatGPT Images 2.0 có thể mở khóa các chức năng khác nhau, tổng hợp như sau:

  • Người dùng miễn phí: Hiện tại có thể sử dụng mô hình ImageGen 2.0 cơ bản để thực hiện các nhiệm vụ tạo hình tiêu chuẩn. Phiên bản cơ bản đã bao gồm nhiều nâng cấp cốt lõi như khả năng tuân thủ lệnh tốt hơn, hiệu ứng chữ mạnh mẽ hơn, hỗ trợ đa ngôn ngữ và nhiều lựa chọn tỷ lệ khung hình hơn.
  • Người dùng ChatGPT Plus, Business và Enterprise: Những người dùng trả phí này có thể kích hoạt mô hình suy nghĩ mới. Trong chế độ này, trình tạo hình ảnh của chatbot sẽ sử dụng tìm kiếm thông tin qua mạng, tạo ra hình ảnh giải thích dựa trên các tệp tải lên của người dùng, và thực hiện suy luận cấu trúc trước khi tạo hình. Mỗi lần có thể tạo tối đa 8 hình, đảm bảo các nhân vật, vật thể và phong cách trong từng cảnh đều nhất quán.
  • Người dùng Pro: Những người dùng này sẽ có quyền truy cập nâng cao vào mô hình ImageGen Pro. Mặc dù OpenAI chưa cung cấp chi tiết chính xác về sự khác biệt giữa Pro và chức năng suy nghĩ, nhưng doanh nghiệp có thể xem chức năng suy nghĩ như một nâng cấp thực chất, phù hợp cho các nhiệm vụ cần dựa trên thực tế, chuyển đổi tài liệu nội bộ thành hình giải thích, hoặc duy trì sự nhất quán về mặt hình ảnh trong nhiều tài sản.
  • Nhà phát triển API: Hiện có thể tích hợp mô hình gpt-image-2, hỗ trợ độ phân giải cao và linh hoạt trong thiết lập tỷ lệ khung hình.

Thử nghiệm thực tế ChatGPT Images 2.0: Menu, tạp chí, biểu đồ giải thích

Hiệu quả thực tế của ChatGPT Images 2.0 có đúng như quảng cáo của OpenAI không? Chúng ta sẽ thử nghiệm.

Thử nghiệm menu quán phở bò

Nhà biên tập của “Thành phố mã hóa” đã thử nghiệm miễn phí ChatGPT, tạo ra một menu món ăn phở bò Đài Loan, với lời nhắc đơn giản: “Giúp tôi tạo một menu món phở bò Đài Loan, trong đó sử dụng tiếng Trung phồn thể, hiển thị tên món, giá cả, và thông tin hình ảnh.”

Dưới đây là kết quả tạo ra:

Nguồn hình ảnh: Ví dụ tạo hình của ChatGPT Images 2.0

Với nội dung có thể tạo ra từ gói miễn phí, nhìn qua thì khá ổn, nhưng khi xem kỹ vẫn thấy Images 2.0 còn gặp lỗi chính tả khi xử lý chữ phồn thể phức tạp, có thể kết quả trả phí sẽ tốt hơn.

Ngoài ra, kết quả còn gần với giá phở bò ở Taipei, và còn có thể ăn tại chỗ miễn phí thêm một lần ăn thêm.

Tuy nhiên, nếu bạn muốn in menu ra giấy, trong thực tế in ấn, tốt nhất là chuyển hình ảnh do ChatGPT Images 2.0 cung cấp sang dạng vector (như EPS, .ai của Adobe Illustrator, PDF), và sử dụng chế độ màu CMYK, sẽ phù hợp hơn cho in ấn. Các nhà in có thể chấp nhận file JPG hoặc PNG, nhưng nếu bạn yêu cầu cao về chất lượng in, sẽ khó điều chỉnh theo ý muốn hơn.

Thử nghiệm bìa tạp chí công nghệ

Tiếp theo, thử nghiệm bìa tạp chí khoa học viễn tưởng, lần này “Thành phố mã hóa” thử xử lý bố cục phức tạp, lời nhắc: “Giúp tôi tạo một bìa tạp chí công nghệ bằng tiếng Trung phồn thể, tên tạp chí là ‘Thành phố mã hóa’, chủ đề ‘Giao thoa giữa blockchain và AI’, bìa này cần có tiêu đề, số tập, mã vạch, ngày hạn hiển thị phía trên, tất cả chữ đều rõ ràng và căn chỉnh chuyên nghiệp.”

Dưới đây là kết quả:

Nguồn hình ảnh: Ví dụ tạo hình của ChatGPT Images 2.0

Kết quả thử nghiệm này tương tự như trên, nhìn qua thì không tệ nhưng khi xem kỹ, vẫn còn thiếu sót trong xử lý chữ phức tạp. Ngoài ra, font chữ trên bìa trông khá giống font “JinSuan” của nhà thiết kế chữ Justfont của Đài Loan, không rõ có được cấp phép hay không.

Với những thắc mắc này, “Thành phố mã hóa” cũng từng đề cập khi ra mắt Nano Banana Pro.

  • Bài báo liên quan: Thử nghiệm Nano Banana Pro: Chữ Trung tiến bộ hơn! Nhưng cũng xuất hiện lo ngại về bản quyền hoạt hình, font chữ.

Thử nghiệm biểu đồ giải thích đa ngôn ngữ

“Thành phố mã hóa” đã thử tạo một biểu đồ nguyên nhân gây ra động đất bằng tiếng Trung phồn thể, Nhật, Hàn, phức tạp đa ngôn ngữ, phần lớn đã thành công trong hiển thị. Về bố cục, dựa theo ngôn ngữ sẽ dùng màu khác nhau để phân biệt, mặc dù nhìn kỹ vẫn còn một số chữ phức tạp như chữ Hán hoặc Hàn có phần mờ.

Dưới đây là kết quả:

Nguồn hình ảnh: Ví dụ tạo hình của ChatGPT Images 2.0

Images 2.0 có thể duy trì sự nhất quán của nhân vật và vật thể, giải quyết quy trình phức tạp

Ngoài ra, Images 2.0 cũng giống Nano Banana 2, có khả năng chỉnh sửa, chỉ cần nhấn “Chỉnh sửa” ở góc dưới bên trái của hình ảnh tạo ra là có thể bắt đầu thao tác, giữ được sự nhất quán của nhân vật và vật thể, giúp việc tạo trang truyện tranh, series hình ảnh cho mạng xã hội hoặc thiết kế sơ đồ các phòng trong nhà trở nên dễ dàng hơn.

Trưởng nhóm sản phẩm ChatGPT Images, Adele Li, cho biết, chức năng này giải quyết vấn đề trước đây người dùng phải tạo từng hình rồi ghép thủ công rườm rà, giúp các nhà sáng tạo dễ dàng tạo ra các sách tranh thiếu nhi hoặc tài liệu marketing thương hiệu có cùng đặc điểm hình ảnh.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim