大规模电子商务:软件工程师如何系统解决属性混乱

排序产品属性听起来很平凡——直到你需要为三百万个SKU执行此操作。电子商务系统的隐藏复杂性并不在于分布式搜索或实时库存等重大挑战。真正的支柱是数据一致性:尺寸、颜色、材料和其他产品属性必须结构化得既准确又可预见。

这个问题是真实存在的。在真实的产品目录中,可以看到混乱的值:尺寸如“XL”、“Small”、“12cm”、“Large”、“M”、“S”混杂在一起。颜色如“RAL 3020”、“Crimson”、“Red”、“Dark Red”。材料如“Steel”、“Carbon Steel”、“Stainless”、“Stainless Steel”。每一个不一致看似无害,但在数百万产品中叠加,就会形成系统性问题。过滤器表现得不可预测,搜索引擎的相关性下降,用户体验受到影响。

核心策略:明确规则的混合智能

而不是使用黑箱式的AI,一个软件工程师设计了一条受控的混合管道。目标不是神秘的自动化,而是一个同时满足以下条件的解决方案:

  • 可解释
  • 可预见
  • 可扩展到数百万数据集
  • 可由人类控制

这条管道结合了大型语言模型(LLMs)的上下文思考能力与确定性规则和商家控制。它智能行事,但始终可追溯——是一种有导向的AI,而非失控的AI。

离线处理而非实时:战略决策

所有属性处理在后台作业中进行,而非实时系统中。这是有意为之,因为在电子商务规模下的实时管道会带来:

  • 不可预见的延迟
  • 脆弱的依赖关系
  • 高昂的计算峰值
  • 操作不稳定

而离线作业提供了:

  • 通过批处理实现高吞吐量,不影响实时系统
  • 具备韧性,故障不会影响客户流量
  • 通过在流量低谷时段调度处理控制成本
  • 将LLM延迟与产品页面隔离
  • 原子性、可预见的更新

在数百万SKU的场景中,客户界面与数据处理管道的分离至关重要。

处理管道:从原始数据到智能

在应用AI之前,进行关键的预处理步骤:

  • 去除空白字符
  • 删除空值
  • 去重
  • 结构化类别上下文信息

这一步大大减少了噪声,显著提升了语言模型的思考能力。规则很简单:干净的输入=可靠的输出。在大规模操作中,即使是微小的错误也会累积成问题。

然后,LLM服务会接收:

  • 清洗后的属性值
  • 类别面包屑(Breadcrumbs)以提供上下文
  • 属性元数据

借助这些上下文,模型可以区分“Spannung”在电动工具中是数值型,“Größe”在服装中遵循标准尺寸,“Farbe”可能符合RAL标准。返回结果包括:

  • 按逻辑顺序排序的值
  • 精细化的属性名称
  • 一个决策:确定性排序或上下文排序

确定性回退:只在必要时使用AI

并非所有属性都需要AI处理。管道会自动识别哪些属性更适合用确定性逻辑处理:

  • 数值范围(更快、更可预见)
  • 基于单位的值(2cm、5cm、12cm → 2cm、5cm、12cm、20cm)
  • 简单的量级(无歧义)

这样可以减少不必要的LLM调用,提高系统效率。

人工控制与信任

每个类别可以标记为LLM_SORT (模型决定)或MANUAL_SORT (商家定义)。这个双重系统确保由人最终决策,而AI负责繁重的工作。商家可以随时覆盖模型,无需中断管道——这是建立信任的重要机制。

所有结果都存储在MongoDB数据库中:

  • 排序后的属性值
  • 精细化的属性名称
  • 类别相关的排序标签
  • 产品相关的sortOrder字段

这便于后续验证、覆盖、重建和与其他系统同步。

数据流线:从原始数据到搜索

排序后,数据流入:

  • Elasticsearch,用于关键词驱动的搜索,具有一致的过滤逻辑
  • Vespa,用于语义和向量搜索

确保:

  • 过滤器按逻辑顺序出现
  • 产品页面显示一致的属性
  • 搜索引擎排名更精准
  • 客户更直观地浏览类别

架构概览

模块化管道遵循以下流程:

  1. 产品数据来自产品信息系统
  2. 属性提取作业提取值和类别上下文
  3. 这些数据传递给AI排序服务
  4. 更新后的产品文档存入MongoDB
  5. 出站同步作业更新产品信息系统
  6. Elasticsearch和Vespa同步作业将排序数据传输到搜索系统
  7. API服务连接搜索系统与客户端应用

此循环确保每个排序或手动设置的属性值都能在搜索、商品展示和用户体验中得到反映。

实践中的成果

将原始值转化为结构化输出的示例:

属性 原始值 排序后输出
尺寸 XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
颜色 RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
材料 Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
数值 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

这些示例展现了上下文思考与明确规则的结合。

可衡量的影响

  • 超过3M SKU的属性排序一致性
  • 通过确定性回退实现可预见的数值排序
  • 商家通过手动标签实现完全控制
  • 更清晰的产品页面和更直观的过滤
  • 改善搜索相关性和排名
  • 提升客户信任度和转化率

关键结论

  • 混合管道在大规模场景中优于纯AI
  • 上下文对LLM的准确性至关重要
  • 离线作业对吞吐量和韧性必不可少
  • 人工覆盖机制建立信任
  • 干净的输入数据是可靠AI输出的基础

最大的经验教训:电子商务中最重要的问题,往往不是那些轰动一时的问题,而是每天在每个产品页面上潜在存在的静默挑战。通过智能的系统架构和混合AI方法,可以系统性地、可扩展地解决混乱问题。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)