Hầu hết mọi người đều nói về tìm kiếm phân tán và máy đề xuất khi đề cập đến quy mô trong thương mại điện tử. Tuy nhiên, dưới bề mặt tồn tại một vấn đề kiên trì hơn, thường bị bỏ qua: Quản lý giá trị thuộc tính trong danh mục sản phẩm. Với hơn 3 triệu SKU, điều này nhanh chóng trở thành một vấn đề hệ thống.
Giá trị thuộc tính là nền tảng của việc khám phá sản phẩm. Chúng thúc đẩy bộ lọc, so sánh và xếp hạng tìm kiếm. Nhưng trong thực tế, chúng bị phân mảnh: “XL”, “Small”, “12cm” và “Large” trộn lẫn trong một trường. Hoặc các màu như “RAL 3020”, “Crimson”, “Red” và “Dark Red” không có cấu trúc nhất quán. Nhân lên những sự không nhất quán này qua hàng chục thuộc tính mỗi sản phẩm, vấn đề sẽ theo cấp số nhân.
Bộ lọc phản ứng không dự đoán được, tìm kiếm mất đi tính liên quan, và điều hướng khách hàng trở nên thất vọng. Đồng thời, các nhà bán hàng bị ngập trong việc làm sạch dữ liệu thủ công.
Phản hồi: Các pipeline lai thông minh với cơ chế kiểm soát
Thay vì một AI hộp đen, tự ý phân loại dữ liệu, đã hình thành một kiến trúc với ba trụ cột:
Giải thích được: Mỗi quyết định đều có thể theo dõi
Dự đoán được: Hệ thống hành xử nhất quán
Kiểm soát của con người: Người bán hàng có thể thiết lập thủ công các thuộc tính quan trọng
Kết quả là một pipeline lai kết hợp trí tuệ LLM với các quy tắc rõ ràng và khả năng lưu trữ dữ liệu. Nó hoạt động thông minh, nhưng vẫn có thể kiểm soát—AI có giới hạn, không phải không kiểm soát được.
Xử lý ngoại tuyến thay vì pipeline thời gian thực
Một quyết định thiết kế quan trọng là chọn các công việc nền để chạy đằng sau hệ thống trực tiếp. Điều này nghe có vẻ là một thỏa hiệp, nhưng thực ra là hợp lý chiến lược:
Xử lý thời gian thực sẽ có nghĩa là:
Độ trễ không thể dự đoán
Phụ thuộc hệ thống mong manh
Chi phí cao đỉnh điểm tính toán
Các phức tạp vận hành
Các công việc ngoại tuyến cung cấp:
Xử lý lượng lớn dữ liệu mà không ảnh hưởng đến lưu lượng khách hàng
Khả năng phục hồi: các sự cố không ảnh hưởng đến hệ thống trực tiếp
Kiểm soát chi phí qua xử lý theo lịch trình
Tách biệt độ trễ của LLM
Cập nhật nguyên tử, dự đoán được
Việc tách biệt các hệ thống liên quan đến khách hàng và pipeline xử lý dữ liệu là rất quan trọng trong quy mô hàng triệu SKU.
Kiến trúc với khả năng lưu trữ và nhất quán
Toàn bộ khả năng lưu trữ dữ liệu diễn ra qua MongoDB như bộ nhớ trung tâm:
Trích xuất thuộc tính: Công việc đầu tiên lấy giá trị thô và ngữ cảnh danh mục
Dịch vụ AI: LLM nhận dữ liệu đã làm sạch cộng với thông tin ngữ cảnh (Breadcrumb danh mục, siêu dữ liệu)
Các fallback xác định: Các phạm vi số và tập hợp đơn giản được tự động nhận diện và phân loại dựa theo quy tắc
Lưu trữ: Các giá trị đã sắp xếp, tên thuộc tính tinh chỉnh và thẻ sắp xếp được lưu trong MongoDB
Tích hợp tìm kiếm: Dữ liệu cập nhật được đẩy vào Elasticsearch (Tìm kiếm từ khóa) và Vespa (Tìm kiếm ngữ nghĩa)
Cấu trúc lưu trữ này cho phép kiểm tra dễ dàng, ghi đè và đồng bộ lại với các hệ thống khác.
Kiểm soát lai: AI gặp quyết định của người bán
Không phải tất cả các thuộc tính đều cần trí tuệ AI. Do đó, mỗi danh mục có thể được gắn nhãn:
LLM_SORT: Mô hình quyết định sắp xếp
MANUAL_SORT: Người bán xác định thứ tự thủ công
Hệ thống nhãn kép này xây dựng niềm tin. Con người giữ quyền kiểm soát các thuộc tính quan trọng, trong khi AI đảm nhận công việc thường lệ—và không làm gián đoạn pipeline.
Làm sạch dữ liệu như nền tảng
Trước khi áp dụng AI, một bước tiền xử lý quan trọng diễn ra:
Cắt bỏ khoảng trắng
Loại bỏ giá trị trống
Loại bỏ trùng lặp
Chuẩn hóa ngữ cảnh danh mục
Việc làm sạch đơn giản này đã cải thiện đáng kể độ chính xác của LLM. Dữ liệu sạch dẫn đến kết quả nhất quán—một nguyên tắc cơ bản trong quy mô lớn.
Chuyển đổi trong thực tế
Pipeline chuyển đổi dữ liệu thô hỗn loạn thành các đầu ra có cấu trúc:
Thuộc tính
Giá trị thô
Đầu ra đã sắp xếp
Kích thước
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Màu sắc
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, Red (RAL 3020)
Chất liệu
Thép, Thép Carbon, Không gỉ, Thép không gỉ
Thép, Thép không gỉ, Thép Carbon
Số học
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Ảnh hưởng kinh doanh
Kết quả mang lại đáng kể:
Sắp xếp thuộc tính nhất quán trên hơn 3 triệu SKU
Sắp xếp số dự đoán chính xác nhờ logic xác định
Cải thiện độ liên quan của tìm kiếm
Bộ lọc trực quan hơn trên trang sản phẩm
Tăng độ tin cậy của khách hàng và tỷ lệ chuyển đổi
Đây không chỉ là chiến thắng kỹ thuật—đây là lợi ích cho trải nghiệm người dùng và doanh thu.
Những bài học chính
Lai vượt trội hơn AI thuần túy: Giới hạn là cần thiết trong quy mô lớn
Ngữ cảnh là vua: Ngữ cảnh tốt hơn = kết quả LLM tốt hơn rõ rệt
Kiến trúc ngoại tuyến tạo độ bền: Công việc nền là nền tảng cho lượng xử lý
Lưu trữ mà không mất kiểm soát: Các cơ chế ghi đè của con người xây dựng niềm tin
Dữ liệu sạch = kết quả đáng tin cậy: Chất lượng dữ liệu quyết định thành công của AI
Kết luận
Sắp xếp giá trị thuộc tính nghe có vẻ đơn giản, nhưng trở thành vấn đề thực sự khi có hàng triệu sản phẩm. Bằng cách kết hợp trí tuệ LLM, quy tắc rõ ràng, khả năng lưu trữ và kiểm soát của người bán, hệ thống này giải quyết các thách thức phức tạp, ẩn sâu một cách tinh tế. Nó nhắc nhở chúng ta rằng thành công lớn nhất thường đến từ việc giải quyết những vấn đề nhàm chán, bị bỏ qua—những vấn đề ảnh hưởng đến từng trang sản phẩm.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Cách kiến trúc AI lai quản lý nhất quán hàng triệu thuộc tính sản phẩm
Vấn đề ẩn của quy mô thương mại điện tử
Hầu hết mọi người đều nói về tìm kiếm phân tán và máy đề xuất khi đề cập đến quy mô trong thương mại điện tử. Tuy nhiên, dưới bề mặt tồn tại một vấn đề kiên trì hơn, thường bị bỏ qua: Quản lý giá trị thuộc tính trong danh mục sản phẩm. Với hơn 3 triệu SKU, điều này nhanh chóng trở thành một vấn đề hệ thống.
Giá trị thuộc tính là nền tảng của việc khám phá sản phẩm. Chúng thúc đẩy bộ lọc, so sánh và xếp hạng tìm kiếm. Nhưng trong thực tế, chúng bị phân mảnh: “XL”, “Small”, “12cm” và “Large” trộn lẫn trong một trường. Hoặc các màu như “RAL 3020”, “Crimson”, “Red” và “Dark Red” không có cấu trúc nhất quán. Nhân lên những sự không nhất quán này qua hàng chục thuộc tính mỗi sản phẩm, vấn đề sẽ theo cấp số nhân.
Bộ lọc phản ứng không dự đoán được, tìm kiếm mất đi tính liên quan, và điều hướng khách hàng trở nên thất vọng. Đồng thời, các nhà bán hàng bị ngập trong việc làm sạch dữ liệu thủ công.
Phản hồi: Các pipeline lai thông minh với cơ chế kiểm soát
Thay vì một AI hộp đen, tự ý phân loại dữ liệu, đã hình thành một kiến trúc với ba trụ cột:
Kết quả là một pipeline lai kết hợp trí tuệ LLM với các quy tắc rõ ràng và khả năng lưu trữ dữ liệu. Nó hoạt động thông minh, nhưng vẫn có thể kiểm soát—AI có giới hạn, không phải không kiểm soát được.
Xử lý ngoại tuyến thay vì pipeline thời gian thực
Một quyết định thiết kế quan trọng là chọn các công việc nền để chạy đằng sau hệ thống trực tiếp. Điều này nghe có vẻ là một thỏa hiệp, nhưng thực ra là hợp lý chiến lược:
Xử lý thời gian thực sẽ có nghĩa là:
Các công việc ngoại tuyến cung cấp:
Việc tách biệt các hệ thống liên quan đến khách hàng và pipeline xử lý dữ liệu là rất quan trọng trong quy mô hàng triệu SKU.
Kiến trúc với khả năng lưu trữ và nhất quán
Toàn bộ khả năng lưu trữ dữ liệu diễn ra qua MongoDB như bộ nhớ trung tâm:
Cấu trúc lưu trữ này cho phép kiểm tra dễ dàng, ghi đè và đồng bộ lại với các hệ thống khác.
Kiểm soát lai: AI gặp quyết định của người bán
Không phải tất cả các thuộc tính đều cần trí tuệ AI. Do đó, mỗi danh mục có thể được gắn nhãn:
Hệ thống nhãn kép này xây dựng niềm tin. Con người giữ quyền kiểm soát các thuộc tính quan trọng, trong khi AI đảm nhận công việc thường lệ—và không làm gián đoạn pipeline.
Làm sạch dữ liệu như nền tảng
Trước khi áp dụng AI, một bước tiền xử lý quan trọng diễn ra:
Việc làm sạch đơn giản này đã cải thiện đáng kể độ chính xác của LLM. Dữ liệu sạch dẫn đến kết quả nhất quán—một nguyên tắc cơ bản trong quy mô lớn.
Chuyển đổi trong thực tế
Pipeline chuyển đổi dữ liệu thô hỗn loạn thành các đầu ra có cấu trúc:
Ảnh hưởng kinh doanh
Kết quả mang lại đáng kể:
Đây không chỉ là chiến thắng kỹ thuật—đây là lợi ích cho trải nghiệm người dùng và doanh thu.
Những bài học chính
Kết luận
Sắp xếp giá trị thuộc tính nghe có vẻ đơn giản, nhưng trở thành vấn đề thực sự khi có hàng triệu sản phẩm. Bằng cách kết hợp trí tuệ LLM, quy tắc rõ ràng, khả năng lưu trữ và kiểm soát của người bán, hệ thống này giải quyết các thách thức phức tạp, ẩn sâu một cách tinh tế. Nó nhắc nhở chúng ta rằng thành công lớn nhất thường đến từ việc giải quyết những vấn đề nhàm chán, bị bỏ qua—những vấn đề ảnh hưởng đến từng trang sản phẩm.