Cách kiến trúc AI lai quản lý nhất quán hàng triệu thuộc tính sản phẩm

Vấn đề ẩn của quy mô thương mại điện tử

Hầu hết mọi người đều nói về tìm kiếm phân tán và máy đề xuất khi đề cập đến quy mô trong thương mại điện tử. Tuy nhiên, dưới bề mặt tồn tại một vấn đề kiên trì hơn, thường bị bỏ qua: Quản lý giá trị thuộc tính trong danh mục sản phẩm. Với hơn 3 triệu SKU, điều này nhanh chóng trở thành một vấn đề hệ thống.

Giá trị thuộc tính là nền tảng của việc khám phá sản phẩm. Chúng thúc đẩy bộ lọc, so sánh và xếp hạng tìm kiếm. Nhưng trong thực tế, chúng bị phân mảnh: “XL”, “Small”, “12cm” và “Large” trộn lẫn trong một trường. Hoặc các màu như “RAL 3020”, “Crimson”, “Red” và “Dark Red” không có cấu trúc nhất quán. Nhân lên những sự không nhất quán này qua hàng chục thuộc tính mỗi sản phẩm, vấn đề sẽ theo cấp số nhân.

Bộ lọc phản ứng không dự đoán được, tìm kiếm mất đi tính liên quan, và điều hướng khách hàng trở nên thất vọng. Đồng thời, các nhà bán hàng bị ngập trong việc làm sạch dữ liệu thủ công.

Phản hồi: Các pipeline lai thông minh với cơ chế kiểm soát

Thay vì một AI hộp đen, tự ý phân loại dữ liệu, đã hình thành một kiến trúc với ba trụ cột:

  • Giải thích được: Mỗi quyết định đều có thể theo dõi
  • Dự đoán được: Hệ thống hành xử nhất quán
  • Kiểm soát của con người: Người bán hàng có thể thiết lập thủ công các thuộc tính quan trọng

Kết quả là một pipeline lai kết hợp trí tuệ LLM với các quy tắc rõ ràng và khả năng lưu trữ dữ liệu. Nó hoạt động thông minh, nhưng vẫn có thể kiểm soát—AI có giới hạn, không phải không kiểm soát được.

Xử lý ngoại tuyến thay vì pipeline thời gian thực

Một quyết định thiết kế quan trọng là chọn các công việc nền để chạy đằng sau hệ thống trực tiếp. Điều này nghe có vẻ là một thỏa hiệp, nhưng thực ra là hợp lý chiến lược:

Xử lý thời gian thực sẽ có nghĩa là:

  • Độ trễ không thể dự đoán
  • Phụ thuộc hệ thống mong manh
  • Chi phí cao đỉnh điểm tính toán
  • Các phức tạp vận hành

Các công việc ngoại tuyến cung cấp:

  • Xử lý lượng lớn dữ liệu mà không ảnh hưởng đến lưu lượng khách hàng
  • Khả năng phục hồi: các sự cố không ảnh hưởng đến hệ thống trực tiếp
  • Kiểm soát chi phí qua xử lý theo lịch trình
  • Tách biệt độ trễ của LLM
  • Cập nhật nguyên tử, dự đoán được

Việc tách biệt các hệ thống liên quan đến khách hàng và pipeline xử lý dữ liệu là rất quan trọng trong quy mô hàng triệu SKU.

Kiến trúc với khả năng lưu trữ và nhất quán

Toàn bộ khả năng lưu trữ dữ liệu diễn ra qua MongoDB như bộ nhớ trung tâm:

  • Trích xuất thuộc tính: Công việc đầu tiên lấy giá trị thô và ngữ cảnh danh mục
  • Dịch vụ AI: LLM nhận dữ liệu đã làm sạch cộng với thông tin ngữ cảnh (Breadcrumb danh mục, siêu dữ liệu)
  • Các fallback xác định: Các phạm vi số và tập hợp đơn giản được tự động nhận diện và phân loại dựa theo quy tắc
  • Lưu trữ: Các giá trị đã sắp xếp, tên thuộc tính tinh chỉnh và thẻ sắp xếp được lưu trong MongoDB
  • Tích hợp tìm kiếm: Dữ liệu cập nhật được đẩy vào Elasticsearch (Tìm kiếm từ khóa) và Vespa (Tìm kiếm ngữ nghĩa)

Cấu trúc lưu trữ này cho phép kiểm tra dễ dàng, ghi đè và đồng bộ lại với các hệ thống khác.

Kiểm soát lai: AI gặp quyết định của người bán

Không phải tất cả các thuộc tính đều cần trí tuệ AI. Do đó, mỗi danh mục có thể được gắn nhãn:

  • LLM_SORT: Mô hình quyết định sắp xếp
  • MANUAL_SORT: Người bán xác định thứ tự thủ công

Hệ thống nhãn kép này xây dựng niềm tin. Con người giữ quyền kiểm soát các thuộc tính quan trọng, trong khi AI đảm nhận công việc thường lệ—và không làm gián đoạn pipeline.

Làm sạch dữ liệu như nền tảng

Trước khi áp dụng AI, một bước tiền xử lý quan trọng diễn ra:

  • Cắt bỏ khoảng trắng
  • Loại bỏ giá trị trống
  • Loại bỏ trùng lặp
  • Chuẩn hóa ngữ cảnh danh mục

Việc làm sạch đơn giản này đã cải thiện đáng kể độ chính xác của LLM. Dữ liệu sạch dẫn đến kết quả nhất quán—một nguyên tắc cơ bản trong quy mô lớn.

Chuyển đổi trong thực tế

Pipeline chuyển đổi dữ liệu thô hỗn loạn thành các đầu ra có cấu trúc:

Thuộc tính Giá trị thô Đầu ra đã sắp xếp
Kích thước XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Màu sắc RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Chất liệu Thép, Thép Carbon, Không gỉ, Thép không gỉ Thép, Thép không gỉ, Thép Carbon
Số học 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Ảnh hưởng kinh doanh

Kết quả mang lại đáng kể:

  • Sắp xếp thuộc tính nhất quán trên hơn 3 triệu SKU
  • Sắp xếp số dự đoán chính xác nhờ logic xác định
  • Cải thiện độ liên quan của tìm kiếm
  • Bộ lọc trực quan hơn trên trang sản phẩm
  • Tăng độ tin cậy của khách hàng và tỷ lệ chuyển đổi

Đây không chỉ là chiến thắng kỹ thuật—đây là lợi ích cho trải nghiệm người dùng và doanh thu.

Những bài học chính

  • Lai vượt trội hơn AI thuần túy: Giới hạn là cần thiết trong quy mô lớn
  • Ngữ cảnh là vua: Ngữ cảnh tốt hơn = kết quả LLM tốt hơn rõ rệt
  • Kiến trúc ngoại tuyến tạo độ bền: Công việc nền là nền tảng cho lượng xử lý
  • Lưu trữ mà không mất kiểm soát: Các cơ chế ghi đè của con người xây dựng niềm tin
  • Dữ liệu sạch = kết quả đáng tin cậy: Chất lượng dữ liệu quyết định thành công của AI

Kết luận

Sắp xếp giá trị thuộc tính nghe có vẻ đơn giản, nhưng trở thành vấn đề thực sự khi có hàng triệu sản phẩm. Bằng cách kết hợp trí tuệ LLM, quy tắc rõ ràng, khả năng lưu trữ và kiểm soát của người bán, hệ thống này giải quyết các thách thức phức tạp, ẩn sâu một cách tinh tế. Nó nhắc nhở chúng ta rằng thành công lớn nhất thường đến từ việc giải quyết những vấn đề nhàm chán, bị bỏ qua—những vấn đề ảnh hưởng đến từng trang sản phẩm.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim