Thương mại điện tử quy mô lớn: Cách các kỹ sư phần mềm giải quyết hệ thống hỗn loạn thuộc tính một cách có hệ thống

2026-01-09 11:23:04

Việc sắp xếp thuộc tính sản phẩm nghe có vẻ đơn giản – cho đến khi bạn phải thực hiện điều đó cho ba triệu SKU. Phức tạp ẩn của hệ thống Thương mại điện tử không nằm ở những thách thức lớn như tìm kiếm phân tán hay kiểm kê theo thời gian thực. Trục chính thực sự là tính nhất quán của dữ liệu: kích thước, màu sắc, chất liệu và các thuộc tính sản phẩm khác phải được cấu trúc chính xác và dự đoán được.

Vấn đề là có thật. Trong các danh mục sản phẩm thực tế, ta thấy các giá trị rối rắm: kích thước như “XL”, “Small”, “12cm”, “Large”, “M”, “S” trộn lẫn. Màu sắc như “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Chất liệu như “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”. Mỗi sự không nhất quán nhỏ đều có vẻ vô hại, nhưng khi nhân lên hàng triệu sản phẩm, nó trở thành hệ thống. Bộ lọc hoạt động không dự đoán được, công cụ tìm kiếm mất đi tính liên quan, và trải nghiệm khách hàng bị ảnh hưởng.

Chiến lược cốt lõi: Trí tuệ lai kết hợp quy tắc rõ ràng

Thay vì sử dụng AI hộp đen, một kỹ sư phần mềm đã thiết kế một pipeline lai kiểm soát được. Mục tiêu không phải là tự động huyền bí, mà là một giải pháp đồng thời:

Có thể giải thích
Hoạt động dự đoán được
Có thể mở rộng trên hàng triệu dữ liệu
Có thể kiểm soát bởi con người

Pipeline này kết hợp tư duy ngữ cảnh của các mô hình ngôn ngữ lớn (LLMs) với các quy tắc xác định và kiểm soát của thương nhân. Nó hoạt động thông minh, nhưng luôn dễ theo dõi – AI có giới hạn, không phải AI ngoài tầm kiểm soát.

Xử lý ngoại tuyến thay vì thời gian thực: Một quyết định chiến lược

Toàn bộ xử lý thuộc tính diễn ra trong các công việc nền, không trong các hệ thống thời gian thực. Điều này được chọn có chủ ý, vì pipeline thời gian thực quy mô Thương mại điện tử dẫn đến:

Độ trễ không thể dự đoán
Phụ thuộc mong manh
Đỉnh tính toán tốn kém
Không ổn định vận hành

Trong khi đó, các công việc ngoại tuyến cung cấp:

Tốc độ cao qua xử lý theo lô mà không ảnh hưởng hệ thống trực tiếp
Khả năng chống chịu, vì các sự cố không ảnh hưởng đến lưu lượng khách hàng
Kiểm soát chi phí qua xử lý theo lịch trong giờ thấp điểm
Cách ly độ trễ của LLM so với trang sản phẩm
Cập nhật nguyên tử, dự đoán được

Sự phân tách giữa giao diện khách hàng và pipeline xử lý dữ liệu này là rất quan trọng khi có hàng triệu SKU.

Pipeline xử lý: Từ dữ liệu thô đến trí tuệ

Trước khi áp dụng AI, có một bước tiền xử lý quan trọng:

Cắt bỏ khoảng trắng
Loại bỏ giá trị trống
Loại bỏ trùng lặp
Cấu trúc thông tin ngữ cảnh danh mục

Bước này giảm nhiễu đáng kể và nâng cao khả năng tư duy của mô hình ngôn ngữ. Quy tắc đơn giản: Dữ liệu đầu vào sạch = đầu ra đáng tin cậy. Ở quy mô lớn, ngay cả lỗi nhỏ cũng tích tụ thành vấn đề lớn sau này.

Dịch vụ LLM sau đó nhận:

Các giá trị thuộc tính đã được làm sạch
Breadcrumb danh mục để ngữ cảnh hóa
Metadata thuộc tính

Với ngữ cảnh này, mô hình có thể phân biệt rằng “Spannung” trong dụng cụ điện là số, “Size” trong quần áo theo kích cỡ tiêu chuẩn, “Farbe” có thể phù hợp với tiêu chuẩn RAL. Kết quả trả về gồm:

Các giá trị được sắp xếp theo thứ tự hợp lý
Tên thuộc tính được tinh chỉnh
Một quyết định: sắp xếp xác định hay dựa vào ngữ cảnh

Các phương án dự phòng xác định: AI chỉ khi cần thiết

Không phải tất cả thuộc tính đều cần xử lý bằng AI. Pipeline tự động nhận diện các thuộc tính phù hợp hơn với logic xác định:

Phạm vi số (nhanh hơn, dự đoán được)
Giá trị dựa trên đơn vị (2cm, 5cm, 12cm → 2cm, 5cm, 12cm, 20cm)
Số lượng đơn giản (không có đa nghĩa)

Điều này giảm các lượt gọi LLM không cần thiết và giữ hệ thống hiệu quả.

Kiểm soát con người và xây dựng niềm tin

Mỗi danh mục có thể được đánh dấu là LLM_SORT (mô hình quyết định) hoặc MANUAL_SORT (thương nhân xác định). Hệ thống kép này đảm bảo con người đưa ra quyết định cuối cùng, trong khi AI làm phần nặng nhọc. Thương nhân có thể ghi đè mô hình bất cứ lúc nào mà không làm gián đoạn pipeline – một cơ chế tin cậy quan trọng.

Tất cả kết quả được lưu trữ trong cơ sở dữ liệu MongoDB:

Các giá trị thuộc tính đã sắp xếp
Tên thuộc tính tinh chỉnh
Thẻ sắp xếp liên quan danh mục
Trường sortOrder liên quan đến sản phẩm

Điều này cho phép dễ dàng kiểm tra, ghi đè, xử lý lại và đồng bộ với các hệ thống khác.

Chuỗi luồng dữ liệu: Từ dữ liệu thô đến tìm kiếm

Sau khi sắp xếp, dữ liệu sẽ chảy vào:

Elasticsearch cho tìm kiếm theo từ khóa với logic lọc nhất quán
Vespa cho tìm kiếm ngữ nghĩa và dựa trên vector

Điều này đảm bảo:

Bộ lọc xuất hiện theo thứ tự hợp lý
Trang sản phẩm hiển thị thuộc tính nhất quán
Công cụ tìm kiếm xếp hạng chính xác hơn
Khách hàng tìm kiếm theo danh mục dễ dàng hơn

Tổng quan kiến trúc

Pipeline mô-đun theo quy trình sau:

Dữ liệu sản phẩm đến từ hệ thống thông tin sản phẩm
Công việc trích xuất thuộc tính lấy giá trị và ngữ cảnh danh mục
Chuyển đến dịch vụ sắp xếp AI
Tài liệu sản phẩm cập nhật lưu trong MongoDB
Công việc đồng bộ đầu ra cập nhật hệ thống thông tin sản phẩm
Các công việc đồng bộ Elasticsearch và Vespa chuyển dữ liệu đã sắp xếp vào hệ thống tìm kiếm
Các dịch vụ API kết nối hệ thống tìm kiếm với ứng dụng khách hàng

Chu trình này đảm bảo mọi thuộc tính đã sắp xếp hoặc gắn thẻ thủ công đều phản ánh trong tìm kiếm, thương mại và trải nghiệm khách hàng.

Kết quả thực tế

Chuyển đổi từ giá trị thô sang xuất ra có cấu trúc:

Thuộc tính	Giá trị thô	Xuất ra đã sắp xếp
Kích thước	XL, Small, 12cm, Large, M, S	Small, M, Large, XL, 12cm
Màu sắc	RAL 3020, Crimson, Red, Dark Red	Red, Dark Red, Crimson, Red (RAL 3020)
Chất liệu	Steel, Carbon Steel, Stainless, Stainless Steel	Steel, Stainless Steel, Carbon Steel
Số	5cm, 12cm, 2cm, 20cm	2cm, 5cm, 12cm, 20cm

Các ví dụ này thể hiện sự phối hợp giữa tư duy ngữ cảnh và quy tắc rõ ràng.

Tác động đo lường được

Sắp xếp thuộc tính nhất quán trên hơn 3 triệu SKU
Sắp xếp số dự đoán được qua các phương án dự phòng xác định
Kiểm soát hoàn toàn bởi thương nhân qua gắn thẻ thủ công
Trang sản phẩm sạch hơn và bộ lọc dễ sử dụng hơn
Độ liên quan và xếp hạng tìm kiếm cải thiện
Tăng độ tin cậy của khách hàng và tỷ lệ chuyển đổi tăng

Những bài học chính

Các pipeline lai vượt trội hơn AI thuần trong quy mô lớn
Ngữ cảnh là nền tảng cho độ chính xác của LLM
Công việc ngoại tuyến là thiết yếu cho năng suất và khả năng chống chịu
Cơ chế ghi đè của con người xây dựng niềm tin
Dữ liệu đầu vào sạch là nền tảng cho đầu ra AI đáng tin cậy

Bài học lớn nhất: Các vấn đề lớn nhất của Thương mại điện tử thường không phải là những vấn đề ngoạn mục, mà là những thách thức âm thầm hàng ngày ảnh hưởng đến từng trang sản phẩm. Qua kiến trúc hệ thống thông minh và các phương pháp AI lai, sự hỗn loạn trở nên có hệ thống và có thể mở rộng.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.