Thương mại điện tử quy mô lớn: Cách các kỹ sư phần mềm giải quyết hệ thống hỗn loạn thuộc tính một cách có hệ thống

Việc sắp xếp thuộc tính sản phẩm nghe có vẻ đơn giản – cho đến khi bạn phải thực hiện điều đó cho ba triệu SKU. Phức tạp ẩn của hệ thống Thương mại điện tử không nằm ở những thách thức lớn như tìm kiếm phân tán hay kiểm kê theo thời gian thực. Trục chính thực sự là tính nhất quán của dữ liệu: kích thước, màu sắc, chất liệu và các thuộc tính sản phẩm khác phải được cấu trúc chính xác và dự đoán được.

Vấn đề là có thật. Trong các danh mục sản phẩm thực tế, ta thấy các giá trị rối rắm: kích thước như “XL”, “Small”, “12cm”, “Large”, “M”, “S” trộn lẫn. Màu sắc như “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Chất liệu như “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”. Mỗi sự không nhất quán nhỏ đều có vẻ vô hại, nhưng khi nhân lên hàng triệu sản phẩm, nó trở thành hệ thống. Bộ lọc hoạt động không dự đoán được, công cụ tìm kiếm mất đi tính liên quan, và trải nghiệm khách hàng bị ảnh hưởng.

Chiến lược cốt lõi: Trí tuệ lai kết hợp quy tắc rõ ràng

Thay vì sử dụng AI hộp đen, một kỹ sư phần mềm đã thiết kế một pipeline lai kiểm soát được. Mục tiêu không phải là tự động huyền bí, mà là một giải pháp đồng thời:

  • Có thể giải thích
  • Hoạt động dự đoán được
  • Có thể mở rộng trên hàng triệu dữ liệu
  • Có thể kiểm soát bởi con người

Pipeline này kết hợp tư duy ngữ cảnh của các mô hình ngôn ngữ lớn (LLMs) với các quy tắc xác định và kiểm soát của thương nhân. Nó hoạt động thông minh, nhưng luôn dễ theo dõi – AI có giới hạn, không phải AI ngoài tầm kiểm soát.

Xử lý ngoại tuyến thay vì thời gian thực: Một quyết định chiến lược

Toàn bộ xử lý thuộc tính diễn ra trong các công việc nền, không trong các hệ thống thời gian thực. Điều này được chọn có chủ ý, vì pipeline thời gian thực quy mô Thương mại điện tử dẫn đến:

  • Độ trễ không thể dự đoán
  • Phụ thuộc mong manh
  • Đỉnh tính toán tốn kém
  • Không ổn định vận hành

Trong khi đó, các công việc ngoại tuyến cung cấp:

  • Tốc độ cao qua xử lý theo lô mà không ảnh hưởng hệ thống trực tiếp
  • Khả năng chống chịu, vì các sự cố không ảnh hưởng đến lưu lượng khách hàng
  • Kiểm soát chi phí qua xử lý theo lịch trong giờ thấp điểm
  • Cách ly độ trễ của LLM so với trang sản phẩm
  • Cập nhật nguyên tử, dự đoán được

Sự phân tách giữa giao diện khách hàng và pipeline xử lý dữ liệu này là rất quan trọng khi có hàng triệu SKU.

Pipeline xử lý: Từ dữ liệu thô đến trí tuệ

Trước khi áp dụng AI, có một bước tiền xử lý quan trọng:

  • Cắt bỏ khoảng trắng
  • Loại bỏ giá trị trống
  • Loại bỏ trùng lặp
  • Cấu trúc thông tin ngữ cảnh danh mục

Bước này giảm nhiễu đáng kể và nâng cao khả năng tư duy của mô hình ngôn ngữ. Quy tắc đơn giản: Dữ liệu đầu vào sạch = đầu ra đáng tin cậy. Ở quy mô lớn, ngay cả lỗi nhỏ cũng tích tụ thành vấn đề lớn sau này.

Dịch vụ LLM sau đó nhận:

  • Các giá trị thuộc tính đã được làm sạch
  • Breadcrumb danh mục để ngữ cảnh hóa
  • Metadata thuộc tính

Với ngữ cảnh này, mô hình có thể phân biệt rằng “Spannung” trong dụng cụ điện là số, “Size” trong quần áo theo kích cỡ tiêu chuẩn, “Farbe” có thể phù hợp với tiêu chuẩn RAL. Kết quả trả về gồm:

  • Các giá trị được sắp xếp theo thứ tự hợp lý
  • Tên thuộc tính được tinh chỉnh
  • Một quyết định: sắp xếp xác định hay dựa vào ngữ cảnh

Các phương án dự phòng xác định: AI chỉ khi cần thiết

Không phải tất cả thuộc tính đều cần xử lý bằng AI. Pipeline tự động nhận diện các thuộc tính phù hợp hơn với logic xác định:

  • Phạm vi số (nhanh hơn, dự đoán được)
  • Giá trị dựa trên đơn vị (2cm, 5cm, 12cm → 2cm, 5cm, 12cm, 20cm)
  • Số lượng đơn giản (không có đa nghĩa)

Điều này giảm các lượt gọi LLM không cần thiết và giữ hệ thống hiệu quả.

Kiểm soát con người và xây dựng niềm tin

Mỗi danh mục có thể được đánh dấu là LLM_SORT (mô hình quyết định) hoặc MANUAL_SORT (thương nhân xác định). Hệ thống kép này đảm bảo con người đưa ra quyết định cuối cùng, trong khi AI làm phần nặng nhọc. Thương nhân có thể ghi đè mô hình bất cứ lúc nào mà không làm gián đoạn pipeline – một cơ chế tin cậy quan trọng.

Tất cả kết quả được lưu trữ trong cơ sở dữ liệu MongoDB:

  • Các giá trị thuộc tính đã sắp xếp
  • Tên thuộc tính tinh chỉnh
  • Thẻ sắp xếp liên quan danh mục
  • Trường sortOrder liên quan đến sản phẩm

Điều này cho phép dễ dàng kiểm tra, ghi đè, xử lý lại và đồng bộ với các hệ thống khác.

Chuỗi luồng dữ liệu: Từ dữ liệu thô đến tìm kiếm

Sau khi sắp xếp, dữ liệu sẽ chảy vào:

  • Elasticsearch cho tìm kiếm theo từ khóa với logic lọc nhất quán
  • Vespa cho tìm kiếm ngữ nghĩa và dựa trên vector

Điều này đảm bảo:

  • Bộ lọc xuất hiện theo thứ tự hợp lý
  • Trang sản phẩm hiển thị thuộc tính nhất quán
  • Công cụ tìm kiếm xếp hạng chính xác hơn
  • Khách hàng tìm kiếm theo danh mục dễ dàng hơn

Tổng quan kiến trúc

Pipeline mô-đun theo quy trình sau:

  1. Dữ liệu sản phẩm đến từ hệ thống thông tin sản phẩm
  2. Công việc trích xuất thuộc tính lấy giá trị và ngữ cảnh danh mục
  3. Chuyển đến dịch vụ sắp xếp AI
  4. Tài liệu sản phẩm cập nhật lưu trong MongoDB
  5. Công việc đồng bộ đầu ra cập nhật hệ thống thông tin sản phẩm
  6. Các công việc đồng bộ Elasticsearch và Vespa chuyển dữ liệu đã sắp xếp vào hệ thống tìm kiếm
  7. Các dịch vụ API kết nối hệ thống tìm kiếm với ứng dụng khách hàng

Chu trình này đảm bảo mọi thuộc tính đã sắp xếp hoặc gắn thẻ thủ công đều phản ánh trong tìm kiếm, thương mại và trải nghiệm khách hàng.

Kết quả thực tế

Chuyển đổi từ giá trị thô sang xuất ra có cấu trúc:

Thuộc tính Giá trị thô Xuất ra đã sắp xếp
Kích thước XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Màu sắc RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Chất liệu Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Số 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Các ví dụ này thể hiện sự phối hợp giữa tư duy ngữ cảnh và quy tắc rõ ràng.

Tác động đo lường được

  • Sắp xếp thuộc tính nhất quán trên hơn 3 triệu SKU
  • Sắp xếp số dự đoán được qua các phương án dự phòng xác định
  • Kiểm soát hoàn toàn bởi thương nhân qua gắn thẻ thủ công
  • Trang sản phẩm sạch hơn và bộ lọc dễ sử dụng hơn
  • Độ liên quan và xếp hạng tìm kiếm cải thiện
  • Tăng độ tin cậy của khách hàng và tỷ lệ chuyển đổi tăng

Những bài học chính

  • Các pipeline lai vượt trội hơn AI thuần trong quy mô lớn
  • Ngữ cảnh là nền tảng cho độ chính xác của LLM
  • Công việc ngoại tuyến là thiết yếu cho năng suất và khả năng chống chịu
  • Cơ chế ghi đè của con người xây dựng niềm tin
  • Dữ liệu đầu vào sạch là nền tảng cho đầu ra AI đáng tin cậy

Bài học lớn nhất: Các vấn đề lớn nhất của Thương mại điện tử thường không phải là những vấn đề ngoạn mục, mà là những thách thức âm thầm hàng ngày ảnh hưởng đến từng trang sản phẩm. Qua kiến trúc hệ thống thông minh và các phương pháp AI lai, sự hỗn loạn trở nên có hệ thống và có thể mở rộng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim