Trong thời đại AI sinh sinh, các mô hình của những ông lớn như OpenAI, Google, Anthropic gần như đã tiêu thụ toàn bộ dữ liệu công khai trên mạng. Nhưng theo nghiên cứu của Đại học Oxford và nhiều tổ chức khác, đến năm 2026 đến 2028, dữ liệu công khai chất lượng cao mà con người có thể cung cấp cho AI sẽ sắp cạn kiệt. Khi mạng bị ngập trong nội dung được tạo ra bởi AI, các mô hình mới chắc chắn sẽ phải tự đào tạo từ dữ liệu do AI tạo ra. Quá trình tự tham chiếu này giống như việc giao phối gần giữa các họ hàng của AI.
Dữ liệu được tạo ra bởi con người vào năm 2026 sẽ bị AI học tập đến mức tối đa.
Đại học Oxford, Đại học Cambridge và nhiều viện nghiên cứu đã công bố bài báo vào tháng 4 năm 2024 có tiêu đề 〈Lời nguyền của Đệ quy: Đào tạo trên Dữ liệu được Tạo ra Khiến Mô hình Quên〉 tiết lộ hiện tượng này.
Họ phát hiện: Khi các mô hình sinh tạo liên tục sử dụng dữ liệu do chính chúng tạo ra để huấn luyện, ngay cả trong điều kiện lý tưởng, mô hình cũng sẽ dần quên đi thực tế và cuối cùng rơi vào tình trạng thoái hóa. Nhóm nghiên cứu đã chỉ ra sau khi thực nghiệm với nhiều cấu trúc như mô hình ngôn ngữ, biến thể tự động hóa mã hóa (VAE) và mô hình hỗn hợp Gaussian (GMM) rằng mỗi lần huấn luyện lại giống như máy photocopy in lại bản sao: chi tiết dần biến mất, sự kiện hiếm hoi là điều đầu tiên bị quên. Sau vài thế hệ, mô hình chỉ còn lại giá trị trung bình và hình thức chủ đạo, cuối cùng trở nên tầm thường, đơn điệu, thậm chí sai lệch.
Quá trình này giống như một cuộc tấn công tự gây độc dữ liệu do mô hình tự khởi động (self-poisoning). Kết quả cuối cùng là mô hình không còn hiểu ngôn ngữ và thực tế, đầu ra trở thành những lời nói nhảm lặp đi lặp lại.
Bài báo Stanford: Dữ liệu thực sự liên tục tham gia, AI sẽ không bị sụp đổ
Tuy nhiên, vào tháng 4 năm 2024, bài báo được công bố bởi Đại học Stanford và đội ngũ Constellation với tựa đề 〈Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data〉, đã mang đến một câu trả lời lạc quan hơn. Họ đã tái hiện lại thí nghiệm của đội ngũ Oxford, nhưng đề xuất một chiến lược huấn luyện mới: để dữ liệu tích lũy thay vì thay thế. Nói cách khác, thế hệ AI mới không loại bỏ dữ liệu cũ của con người, mà tiếp tục chồng chất, hòa trộn nội dung do con người và AI tạo ra.
Kết quả cho thấy nếu mỗi lần huấn luyện đều thay thế dữ liệu cũ bằng dữ liệu tổng hợp mới, hiệu suất của mô hình sẽ xấu đi theo cách tuyến tính. Nhưng nếu giữ lại dữ liệu gốc và liên tục tích lũy, lỗi của mô hình sẽ dần ổn định, thậm chí ngừng xấu đi. Họ đã kiểm tra lặp đi lặp lại trên các mô hình ngôn ngữ (GPT-2, Llama 2), tạo hình ảnh (VAE), và tạo phân tử (Diffusion model), và đều nhận được kết luận nhất quán: miễn là dữ liệu thực vẫn tiếp tục tham gia, AI sẽ không bị sụp đổ.
Các nhà nghiên cứu cũng đã chứng minh lý thuyết rằng: khi dữ liệu tích lũy, giới hạn lỗi mô hình là hữu hạn, không bao giờ phình to vô hạn. Điều này có nghĩa là “hôn nhân cận huyết” của AI không phải là định mệnh, miễn là chúng ta không cắt đứt kết nối với dữ liệu thực của con người.
AI cũng có hiện tượng Habsburg, vòng lặp tự tham chiếu giống như hôn nhân cận huyết.
Người sáng lập iKala, Trình Thế Gia, từng là kỹ sư phần mềm tại Google, đã sử dụng gia đình Habsburg nổi tiếng trong lịch sử nhân loại để mô tả hiện tượng này. Triều đại Habsburg nổi tiếng trong lịch sử châu Âu, để duy trì huyết thống thuần khiết, đã khóa chặt tài sản và quyền lực trong gia đình bằng cách kết hôn cận huyết. Kết quả là xuất hiện cái gọi là “cằm Habsburg”, nhưng đó chỉ là phần nổi của tảng băng vấn đề di truyền. Nhiều bệnh di truyền, động kinh, khiếm khuyết trí tuệ thậm chí tỷ lệ tử vong cao đều là lời nguyền của gia đình Habsburg, và vị vua cuối cùng Carlos II vì vậy mắc nhiều bệnh và không có con.
Cheng Shijia sử dụng một trường hợp cụ thể hơn để giải thích rằng ban đầu đó là một bức tranh phong cảnh đầy chi tiết và thậm chí là những sai sót nhỏ. Phong cách, chi tiết, nét vẽ, sự không hoàn hảo, v.v. của họa sĩ thực sự đại diện cho sự đa dạng di truyền. Đối với bản sao đầu tiên, AI tạo ra một bản sao ( dữ liệu tổng hợp ). Tại thời điểm này, bản sao gần với bản gốc 99,9%. Tuy nhiên, AI là một mô hình lấy mức trung bình từ nó, làm phẳng các khuyết điểm ( đại diện cho ) kiến thức hiếm hoi và củng cố một chút các tính năng phổ biến nhất ( ) ý kiến chính thống. Thế hệ tiếp theo học hỏi từ nó và tính trung bình nó, đó là chu kỳ tự tham chiếu.
Bài viết này Nghiên cứu Cambridge: Dữ liệu của loài người vào năm 2026 sẽ bị LLM học hầu như hoàn toàn, AI có thể sụp đổ do “hiện tượng Habsburg” lần đầu xuất hiện trên Tin tức Chuỗi ABMedia.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Nghiên cứu của Cambridge: Dữ liệu của nhân loại vào năm 2026 sẽ bị LLM học đến cạn kiệt, AI có thể sụp đổ do "hiện tượng Habsburg".
Trong thời đại AI sinh sinh, các mô hình của những ông lớn như OpenAI, Google, Anthropic gần như đã tiêu thụ toàn bộ dữ liệu công khai trên mạng. Nhưng theo nghiên cứu của Đại học Oxford và nhiều tổ chức khác, đến năm 2026 đến 2028, dữ liệu công khai chất lượng cao mà con người có thể cung cấp cho AI sẽ sắp cạn kiệt. Khi mạng bị ngập trong nội dung được tạo ra bởi AI, các mô hình mới chắc chắn sẽ phải tự đào tạo từ dữ liệu do AI tạo ra. Quá trình tự tham chiếu này giống như việc giao phối gần giữa các họ hàng của AI.
Dữ liệu được tạo ra bởi con người vào năm 2026 sẽ bị AI học tập đến mức tối đa.
Đại học Oxford, Đại học Cambridge và nhiều viện nghiên cứu đã công bố bài báo vào tháng 4 năm 2024 có tiêu đề 〈Lời nguyền của Đệ quy: Đào tạo trên Dữ liệu được Tạo ra Khiến Mô hình Quên〉 tiết lộ hiện tượng này.
Họ phát hiện: Khi các mô hình sinh tạo liên tục sử dụng dữ liệu do chính chúng tạo ra để huấn luyện, ngay cả trong điều kiện lý tưởng, mô hình cũng sẽ dần quên đi thực tế và cuối cùng rơi vào tình trạng thoái hóa. Nhóm nghiên cứu đã chỉ ra sau khi thực nghiệm với nhiều cấu trúc như mô hình ngôn ngữ, biến thể tự động hóa mã hóa (VAE) và mô hình hỗn hợp Gaussian (GMM) rằng mỗi lần huấn luyện lại giống như máy photocopy in lại bản sao: chi tiết dần biến mất, sự kiện hiếm hoi là điều đầu tiên bị quên. Sau vài thế hệ, mô hình chỉ còn lại giá trị trung bình và hình thức chủ đạo, cuối cùng trở nên tầm thường, đơn điệu, thậm chí sai lệch.
Quá trình này giống như một cuộc tấn công tự gây độc dữ liệu do mô hình tự khởi động (self-poisoning). Kết quả cuối cùng là mô hình không còn hiểu ngôn ngữ và thực tế, đầu ra trở thành những lời nói nhảm lặp đi lặp lại.
Bài báo Stanford: Dữ liệu thực sự liên tục tham gia, AI sẽ không bị sụp đổ
Tuy nhiên, vào tháng 4 năm 2024, bài báo được công bố bởi Đại học Stanford và đội ngũ Constellation với tựa đề 〈Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data〉, đã mang đến một câu trả lời lạc quan hơn. Họ đã tái hiện lại thí nghiệm của đội ngũ Oxford, nhưng đề xuất một chiến lược huấn luyện mới: để dữ liệu tích lũy thay vì thay thế. Nói cách khác, thế hệ AI mới không loại bỏ dữ liệu cũ của con người, mà tiếp tục chồng chất, hòa trộn nội dung do con người và AI tạo ra.
Kết quả cho thấy nếu mỗi lần huấn luyện đều thay thế dữ liệu cũ bằng dữ liệu tổng hợp mới, hiệu suất của mô hình sẽ xấu đi theo cách tuyến tính. Nhưng nếu giữ lại dữ liệu gốc và liên tục tích lũy, lỗi của mô hình sẽ dần ổn định, thậm chí ngừng xấu đi. Họ đã kiểm tra lặp đi lặp lại trên các mô hình ngôn ngữ (GPT-2, Llama 2), tạo hình ảnh (VAE), và tạo phân tử (Diffusion model), và đều nhận được kết luận nhất quán: miễn là dữ liệu thực vẫn tiếp tục tham gia, AI sẽ không bị sụp đổ.
Các nhà nghiên cứu cũng đã chứng minh lý thuyết rằng: khi dữ liệu tích lũy, giới hạn lỗi mô hình là hữu hạn, không bao giờ phình to vô hạn. Điều này có nghĩa là “hôn nhân cận huyết” của AI không phải là định mệnh, miễn là chúng ta không cắt đứt kết nối với dữ liệu thực của con người.
AI cũng có hiện tượng Habsburg, vòng lặp tự tham chiếu giống như hôn nhân cận huyết.
Người sáng lập iKala, Trình Thế Gia, từng là kỹ sư phần mềm tại Google, đã sử dụng gia đình Habsburg nổi tiếng trong lịch sử nhân loại để mô tả hiện tượng này. Triều đại Habsburg nổi tiếng trong lịch sử châu Âu, để duy trì huyết thống thuần khiết, đã khóa chặt tài sản và quyền lực trong gia đình bằng cách kết hôn cận huyết. Kết quả là xuất hiện cái gọi là “cằm Habsburg”, nhưng đó chỉ là phần nổi của tảng băng vấn đề di truyền. Nhiều bệnh di truyền, động kinh, khiếm khuyết trí tuệ thậm chí tỷ lệ tử vong cao đều là lời nguyền của gia đình Habsburg, và vị vua cuối cùng Carlos II vì vậy mắc nhiều bệnh và không có con.
Cheng Shijia sử dụng một trường hợp cụ thể hơn để giải thích rằng ban đầu đó là một bức tranh phong cảnh đầy chi tiết và thậm chí là những sai sót nhỏ. Phong cách, chi tiết, nét vẽ, sự không hoàn hảo, v.v. của họa sĩ thực sự đại diện cho sự đa dạng di truyền. Đối với bản sao đầu tiên, AI tạo ra một bản sao ( dữ liệu tổng hợp ). Tại thời điểm này, bản sao gần với bản gốc 99,9%. Tuy nhiên, AI là một mô hình lấy mức trung bình từ nó, làm phẳng các khuyết điểm ( đại diện cho ) kiến thức hiếm hoi và củng cố một chút các tính năng phổ biến nhất ( ) ý kiến chính thống. Thế hệ tiếp theo học hỏi từ nó và tính trung bình nó, đó là chu kỳ tự tham chiếu.
Bài viết này Nghiên cứu Cambridge: Dữ liệu của loài người vào năm 2026 sẽ bị LLM học hầu như hoàn toàn, AI có thể sụp đổ do “hiện tượng Habsburg” lần đầu xuất hiện trên Tin tức Chuỗi ABMedia.