Năm 2017, bài báo “Attention is All You Need” ra đời, lần đầu tiên giới thiệu mô hình Transformer dựa trên cơ chế tự chú ý, thoát khỏi sự ràng buộc của RNN và CNN truyền thống, thông qua xử lý song song hiệu quả vượt qua vấn đề phụ thuộc khoảng cách dài. Tại hội nghị GTC năm 2024, Giám đốc điều hành Nvidia Jen-Hsun Huang mời bảy tác giả của Transformer xuất hiện cùng nhau.
Transformer bắt nguồn từ cuộc khủng hoảng hiệu suất trong dịch máy
(Nguồn: NVIDIA)
Jen-Hsun Huang hỏi rằng lúc đầu gặp phải vấn đề gì, điều gì đã truyền cảm hứng cho đội ngũ sáng tạo Transformer. Illia Polosukhin đã trả lời: “Nếu bạn muốn phát hành một mô hình có thể thực sự đọc được kết quả tìm kiếm, chẳng hạn như xử lý một đống tài liệu, bạn cần một số mô hình có thể nhanh chóng xử lý những thông tin này. Mạng nơ-ron hồi tiếp (RNN) lúc đó không thể đáp ứng nhu cầu này.”
Jakob Uszkoreit bổ sung: “Chúng tôi tạo ra dữ liệu huấn luyện nhanh hơn nhiều so với khả năng huấn luyện của các kiến trúc tiên tiến nhất. Thực tế, chúng tôi sử dụng các kiến trúc đơn giản hơn, chẳng hạn như mạng nơ-ron hồi tiếp với các đặc trưng đầu vào là n-gram. Những kiến trúc này, ít nhất là trong dữ liệu huấn luyện lớn ở quy mô Google, thường có thể vượt qua các mô hình phức tạp và tiên tiến hơn do tốc độ huấn luyện nhanh hơn.”
Noam Shazeer đã cung cấp những hiểu biết quan trọng: “Có vẻ như đây là một vấn đề cần giải quyết gấp. Chúng tôi đã bắt đầu nhận thấy những quy luật Scaling này vào khoảng năm 2015, bạn có thể thấy rằng khi kích thước mô hình tăng lên, mức độ thông minh của nó cũng tăng theo. Và một cảm giác thất vọng lớn là việc xử lý RNN thực sự rất rắc rối. Sau đó, tôi tình cờ nghe thấy những người này đang thảo luận, này, hãy thay thế nó bằng các cơ chế tích chập hoặc chú ý. Tôi nghĩ, thật tuyệt, chúng ta hãy làm như vậy. Tôi thích ví von Transformer như một bước nhảy vọt từ động cơ hơi nước sang động cơ đốt trong. Chúng ta có thể đã hoàn thành cuộc cách mạng công nghiệp bằng động cơ hơi nước, nhưng điều đó sẽ rất đau đớn, trong khi động cơ đốt trong làm mọi thứ trở nên tốt hơn.”
Ba vấn đề cốt lõi mà Transformer giải quyết
Xử lý song song: Thoát khỏi hạn chế xử lý tuần tự của RNN, đạt được tính toán thực sự song song.
Mối quan hệ phụ thuộc khoảng cách dài: Hiệu quả trong việc nắm bắt mối quan hệ giữa các từ xa thông qua cơ chế chú ý tự động.
Hiệu quả đào tạo: Tăng tốc độ đào tạo mô hình một cách đáng kể, làm cho việc tiền huấn luyện quy mô lớn trở thành khả thi.
Những đột phá công nghệ này đã làm cho Transformer trở thành nền tảng của AI hiện đại. Các mô hình ngôn ngữ lớn như ChatGPT, BERT, GPT-4 đều dựa trên kiến trúc Transformer. Tuy nhiên, sau bảy năm, những người sáng tạo cảm thấy đã đến lúc phải có những bước đột phá.
bị mắc kẹt trong nghịch cảnh hiệu suất của mô hình nguyên thủy
Aidan Gomez thừa nhận: “Tôi nghĩ rằng thế giới này cần những thứ tốt hơn Transformer, tôi nghĩ tất cả chúng ta ngồi đây đều mong muốn nó có thể được thay thế bằng một cái gì đó, đưa chúng ta đến một cao nguyên mới về hiệu suất.” Llion Jones bổ sung: “Chúng ta bị mắc kẹt trong các mô hình nguyên thủy, mặc dù về mặt kỹ thuật, nó có thể không phải là thứ mạnh mẽ nhất mà chúng ta có hiện nay. Nhưng mọi người đều biết họ muốn có công cụ cá nhân như thế nào, bạn muốn có cửa sổ ngữ cảnh tốt hơn, bạn muốn có khả năng tạo token nhanh hơn. Họ hiện đang sử dụng quá nhiều tài nguyên tính toán. Tôi nghĩ mọi người đã thực hiện rất nhiều tính toán lãng phí.”
Jakob Uszkoreit chỉ ra vấn đề cốt lõi: “Nhưng tôi nghĩ rằng điều này chủ yếu liên quan đến cách phân bổ tài nguyên, chứ không phải là tổng cộng đã tiêu tốn bao nhiêu tài nguyên. Ví dụ, chúng ta không muốn tiêu tốn quá nhiều tiền vào một vấn đề dễ dàng, hoặc tiêu quá ít vào một vấn đề quá khó mà cuối cùng không đạt được giải pháp.”
Illia Polosukhin đã cung cấp một ví dụ sống động: “Ví dụ này giống như 2+2, nếu bạn nhập đúng vào mô hình này, nó sẽ sử dụng một triệu tham số. Vì vậy, tôi nghĩ rằng tính toán thích ứng là một trong những điều cần xảy ra tiếp theo, chúng ta biết rằng nên dành bao nhiêu tài nguyên tính toán cho các vấn đề cụ thể.” Phê bình này làm nổi bật khuyết điểm cơ bản của các mô hình AI hiện tại: thiếu tính thích ứng, đầu tư cùng một lượng tài nguyên tính toán cho các vấn đề đơn giản và phức tạp, gây lãng phí lớn.
Noam Shazeer phân tích từ góc độ kinh tế: “Tôi nghĩ rằng mô hình hiện tại quá tiết kiệm, quy mô cũng còn quá nhỏ. Chi phí tính toán cho mỗi lần thao tác khoảng từ 10 đến 18 đô la. Nếu bạn quan sát một mô hình có 500 tỷ tham số và mỗi token thực hiện một ngàn tỷ phép tính, thì khoảng một đô la cho một triệu token, điều này rẻ hơn 100 lần so với việc ra ngoài mua một cuốn sách bìa mềm và đọc nó.” Quan điểm này có phần ngược với lẽ thường nhưng sâu sắc: AI hiện tại quá rẻ, dẫn đến việc mọi người lạm dụng thay vì trân trọng tài nguyên tính toán.
Hướng đi tương lai: Tính toán thích ứng và khả năng suy diễn
Lukasz Kaiser đã tiết lộ một sự thật quan trọng: “Chúng tôi không thành công trong mục tiêu ban đầu, động lực bắt đầu Transformer của chúng tôi là muốn mô phỏng quá trình tiến hóa của Token. Nó không chỉ là một quá trình sinh ra tuyến tính, mà là sự tiến hóa dần dần của văn bản hoặc mã.” Sự thừa nhận này cho thấy Transformer mặc dù thành công, nhưng chưa hoàn toàn thực hiện được tầm nhìn của người sáng tạo.
Jakob Uszkoreit chỉ ra hướng đi tiếp theo: “Bước tiếp theo là suy diễn. Chúng ta đều nhận thức được tầm quan trọng của suy diễn, nhưng nhiều công việc hiện tại vẫn đang được thực hiện thủ công bởi các kỹ sư. Chúng tôi hy vọng rằng mô hình có thể tạo ra nội dung mà chúng tôi mong muốn, cho dù đó là video, văn bản hay thông điệp 3D, tất cả đều nên được tích hợp lại với nhau.” Điều này ngụ ý rằng kiến trúc AI trong tương lai cần có khả năng suy diễn mạnh mẽ hơn và tích hợp đa phương thức.
Aidan Gomez bổ sung: “Chúng ta có thể đạt được đa nhiệm vụ, đa luồng song song hay không. Nếu bạn thực sự muốn xây dựng một mô hình như vậy, hãy giúp chúng tôi thiết kế một mô hình như vậy, đó là một cách rất tốt.” Lukasz Kaiser cho rằng: “Suy diễn thực sự đến từ dữ liệu, chúng ta cần làm cho dữ liệu đầy đủ hơn.” Những cuộc thảo luận này chỉ ra một vài hướng quan trọng cho kiến trúc AI sau Transformer: tính toán thích ứng, tăng cường suy diễn, tích hợp đa mô hình và sử dụng dữ liệu hiệu quả hơn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Cảnh báo của người sáng tạo Transformer: AI bị mắc kẹt trong cấu trúc nguyên thủy, Jen-Hsun Huang thúc giục bảy tác giả phá vỡ bế tắc
Năm 2017, bài báo “Attention is All You Need” ra đời, lần đầu tiên giới thiệu mô hình Transformer dựa trên cơ chế tự chú ý, thoát khỏi sự ràng buộc của RNN và CNN truyền thống, thông qua xử lý song song hiệu quả vượt qua vấn đề phụ thuộc khoảng cách dài. Tại hội nghị GTC năm 2024, Giám đốc điều hành Nvidia Jen-Hsun Huang mời bảy tác giả của Transformer xuất hiện cùng nhau.
Transformer bắt nguồn từ cuộc khủng hoảng hiệu suất trong dịch máy
(Nguồn: NVIDIA)
Jen-Hsun Huang hỏi rằng lúc đầu gặp phải vấn đề gì, điều gì đã truyền cảm hứng cho đội ngũ sáng tạo Transformer. Illia Polosukhin đã trả lời: “Nếu bạn muốn phát hành một mô hình có thể thực sự đọc được kết quả tìm kiếm, chẳng hạn như xử lý một đống tài liệu, bạn cần một số mô hình có thể nhanh chóng xử lý những thông tin này. Mạng nơ-ron hồi tiếp (RNN) lúc đó không thể đáp ứng nhu cầu này.”
Jakob Uszkoreit bổ sung: “Chúng tôi tạo ra dữ liệu huấn luyện nhanh hơn nhiều so với khả năng huấn luyện của các kiến trúc tiên tiến nhất. Thực tế, chúng tôi sử dụng các kiến trúc đơn giản hơn, chẳng hạn như mạng nơ-ron hồi tiếp với các đặc trưng đầu vào là n-gram. Những kiến trúc này, ít nhất là trong dữ liệu huấn luyện lớn ở quy mô Google, thường có thể vượt qua các mô hình phức tạp và tiên tiến hơn do tốc độ huấn luyện nhanh hơn.”
Noam Shazeer đã cung cấp những hiểu biết quan trọng: “Có vẻ như đây là một vấn đề cần giải quyết gấp. Chúng tôi đã bắt đầu nhận thấy những quy luật Scaling này vào khoảng năm 2015, bạn có thể thấy rằng khi kích thước mô hình tăng lên, mức độ thông minh của nó cũng tăng theo. Và một cảm giác thất vọng lớn là việc xử lý RNN thực sự rất rắc rối. Sau đó, tôi tình cờ nghe thấy những người này đang thảo luận, này, hãy thay thế nó bằng các cơ chế tích chập hoặc chú ý. Tôi nghĩ, thật tuyệt, chúng ta hãy làm như vậy. Tôi thích ví von Transformer như một bước nhảy vọt từ động cơ hơi nước sang động cơ đốt trong. Chúng ta có thể đã hoàn thành cuộc cách mạng công nghiệp bằng động cơ hơi nước, nhưng điều đó sẽ rất đau đớn, trong khi động cơ đốt trong làm mọi thứ trở nên tốt hơn.”
Ba vấn đề cốt lõi mà Transformer giải quyết
Xử lý song song: Thoát khỏi hạn chế xử lý tuần tự của RNN, đạt được tính toán thực sự song song.
Mối quan hệ phụ thuộc khoảng cách dài: Hiệu quả trong việc nắm bắt mối quan hệ giữa các từ xa thông qua cơ chế chú ý tự động.
Hiệu quả đào tạo: Tăng tốc độ đào tạo mô hình một cách đáng kể, làm cho việc tiền huấn luyện quy mô lớn trở thành khả thi.
Những đột phá công nghệ này đã làm cho Transformer trở thành nền tảng của AI hiện đại. Các mô hình ngôn ngữ lớn như ChatGPT, BERT, GPT-4 đều dựa trên kiến trúc Transformer. Tuy nhiên, sau bảy năm, những người sáng tạo cảm thấy đã đến lúc phải có những bước đột phá.
bị mắc kẹt trong nghịch cảnh hiệu suất của mô hình nguyên thủy
Aidan Gomez thừa nhận: “Tôi nghĩ rằng thế giới này cần những thứ tốt hơn Transformer, tôi nghĩ tất cả chúng ta ngồi đây đều mong muốn nó có thể được thay thế bằng một cái gì đó, đưa chúng ta đến một cao nguyên mới về hiệu suất.” Llion Jones bổ sung: “Chúng ta bị mắc kẹt trong các mô hình nguyên thủy, mặc dù về mặt kỹ thuật, nó có thể không phải là thứ mạnh mẽ nhất mà chúng ta có hiện nay. Nhưng mọi người đều biết họ muốn có công cụ cá nhân như thế nào, bạn muốn có cửa sổ ngữ cảnh tốt hơn, bạn muốn có khả năng tạo token nhanh hơn. Họ hiện đang sử dụng quá nhiều tài nguyên tính toán. Tôi nghĩ mọi người đã thực hiện rất nhiều tính toán lãng phí.”
Jakob Uszkoreit chỉ ra vấn đề cốt lõi: “Nhưng tôi nghĩ rằng điều này chủ yếu liên quan đến cách phân bổ tài nguyên, chứ không phải là tổng cộng đã tiêu tốn bao nhiêu tài nguyên. Ví dụ, chúng ta không muốn tiêu tốn quá nhiều tiền vào một vấn đề dễ dàng, hoặc tiêu quá ít vào một vấn đề quá khó mà cuối cùng không đạt được giải pháp.”
Illia Polosukhin đã cung cấp một ví dụ sống động: “Ví dụ này giống như 2+2, nếu bạn nhập đúng vào mô hình này, nó sẽ sử dụng một triệu tham số. Vì vậy, tôi nghĩ rằng tính toán thích ứng là một trong những điều cần xảy ra tiếp theo, chúng ta biết rằng nên dành bao nhiêu tài nguyên tính toán cho các vấn đề cụ thể.” Phê bình này làm nổi bật khuyết điểm cơ bản của các mô hình AI hiện tại: thiếu tính thích ứng, đầu tư cùng một lượng tài nguyên tính toán cho các vấn đề đơn giản và phức tạp, gây lãng phí lớn.
Noam Shazeer phân tích từ góc độ kinh tế: “Tôi nghĩ rằng mô hình hiện tại quá tiết kiệm, quy mô cũng còn quá nhỏ. Chi phí tính toán cho mỗi lần thao tác khoảng từ 10 đến 18 đô la. Nếu bạn quan sát một mô hình có 500 tỷ tham số và mỗi token thực hiện một ngàn tỷ phép tính, thì khoảng một đô la cho một triệu token, điều này rẻ hơn 100 lần so với việc ra ngoài mua một cuốn sách bìa mềm và đọc nó.” Quan điểm này có phần ngược với lẽ thường nhưng sâu sắc: AI hiện tại quá rẻ, dẫn đến việc mọi người lạm dụng thay vì trân trọng tài nguyên tính toán.
Hướng đi tương lai: Tính toán thích ứng và khả năng suy diễn
Lukasz Kaiser đã tiết lộ một sự thật quan trọng: “Chúng tôi không thành công trong mục tiêu ban đầu, động lực bắt đầu Transformer của chúng tôi là muốn mô phỏng quá trình tiến hóa của Token. Nó không chỉ là một quá trình sinh ra tuyến tính, mà là sự tiến hóa dần dần của văn bản hoặc mã.” Sự thừa nhận này cho thấy Transformer mặc dù thành công, nhưng chưa hoàn toàn thực hiện được tầm nhìn của người sáng tạo.
Jakob Uszkoreit chỉ ra hướng đi tiếp theo: “Bước tiếp theo là suy diễn. Chúng ta đều nhận thức được tầm quan trọng của suy diễn, nhưng nhiều công việc hiện tại vẫn đang được thực hiện thủ công bởi các kỹ sư. Chúng tôi hy vọng rằng mô hình có thể tạo ra nội dung mà chúng tôi mong muốn, cho dù đó là video, văn bản hay thông điệp 3D, tất cả đều nên được tích hợp lại với nhau.” Điều này ngụ ý rằng kiến trúc AI trong tương lai cần có khả năng suy diễn mạnh mẽ hơn và tích hợp đa phương thức.
Aidan Gomez bổ sung: “Chúng ta có thể đạt được đa nhiệm vụ, đa luồng song song hay không. Nếu bạn thực sự muốn xây dựng một mô hình như vậy, hãy giúp chúng tôi thiết kế một mô hình như vậy, đó là một cách rất tốt.” Lukasz Kaiser cho rằng: “Suy diễn thực sự đến từ dữ liệu, chúng ta cần làm cho dữ liệu đầy đủ hơn.” Những cuộc thảo luận này chỉ ra một vài hướng quan trọng cho kiến trúc AI sau Transformer: tính toán thích ứng, tăng cường suy diễn, tích hợp đa mô hình và sử dụng dữ liệu hiệu quả hơn.