Сортування атрибутів продукту може здаватися банальним — поки не доведеться робити це для трьох мільйонів SKU. Прихована складність систем електронної комерції полягає не у великих викликах, таких як розподілений пошук або облік в реальному часі. Основний каркас — це цілісність даних: розміри, кольори, матеріали та інші атрибути продукту мають бути точно та передбачувано структуровані.
Проблема реальна. У реальних каталогах товарів можна побачити хаотичні значення: розміри як “XL”, “Small”, “12cm”, “Large”, “M”, “S” змішані. Кольори як “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Матеріали як “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”. Кожна окрема неконсистентність здається нешкідливою, але при масштабі у мільйони продуктів вона стає системною. Фільтри працюють непередбачувано, пошукові системи втрачають релевантність, а досвід користувача погіршується.
Основна стратегія: гібридний інтелект із чіткими правилами
Замість використання чорної скриньки AI, інженер розробив контрольовану гібридну конвеєрну лінію. Мета — не містична автоматизація, а рішення, яке одночасно:
є пояснюваним
працює передбачувано
масштабується на мільйони записів
керується людьми
Ця лінія поєднує контекстне мислення великих мовних моделей (LLMs) з детерміністичними правилами та контролем продавця. Вона діє розумно, але завжди зрозуміла — AI з кермовими обмеженнями, а не неконтрольована штучна інтелігенція.
Офлайн-обробка замість реального часу: стратегічне рішення
Вся обробка атрибутів виконується у фонових задачах, а не у системах у реальному часі. Це було свідомо обрано, оскільки pipelines у реальному часі для масштабів електронної комерції призводять до:
непередбачуваної затримки
крихких залежностей
дорогих піків обчислень
операційної нестабільності
З іншого боку, офлайн-завдання забезпечують:
високий пропуск через пакетну обробку без впливу на живу систему
стійкість — збої не впливають на клієнтський трафік
контроль витрат через обробку у неробочі години
ізоляцію від затримок LLM щодо сторінок продукту
атомарні, передбачувані оновлення
Цей розподіл між інтерфейсами користувача та системами обробки даних є критичним при мільйонах SKU.
Конвеєр обробки: від сирих даних до інтелекту
Перед застосуванням AI виконується важливий попередній етап обробки:
обрізання пробілів
видалення порожніх значень
дедуплікація дублікатів
структуризація контекстної інформації категорій
Цей крок значно зменшує шум і суттєво покращує здатність мовної моделі мислити. Правило просте: чистий вхід = надійний вихід. У масштабі навіть невеликі помилки з часом призводять до накопичених проблем.
Далі сервіс LLM отримує:
очищені значення атрибутів
breadcrumb-інформацію категорій для контекстуалізації
метадані атрибутів
З цим контекстом модель може розрізняти, що “напряження” у електроінструментах — числове, “розмір” у одязі слідує стандартним розмірам, “колір” можливо відповідає стандартам RAL. Відповідь складається з:
впорядкованих значень у логічному порядку
уточнених імен атрибутів
рішення: детерміністичне або контекстне сортування
Детерміністичні резерви: AI там, де потрібно
Не кожен атрибут потребує обробки AI. Лінія автоматично визначає, які атрибути краще обробляти детерміністично:
числові діапазони (швидше, передбачуваніше)
значення на основі одиниць (2cm, 5cm, 12cm → 2cm, 5cm, 12cm, 20cm)
прості кількості (без неоднозначності)
Це зменшує кількість викликів LLM і робить систему ефективнішою.
Контроль людини та довіра
Кожна категорія може позначатися як LLM_SORT (Модель визначає) або MANUAL_SORT (Продавець визначає). Ця двовекторна система гарантує, що остаточні рішення приймають люди, а AI виконує важку роботу. Продавці можуть будь-коли перезаписати модель, не зупиняючи лінію — важливий механізм довіри.
Усі результати зберігаються у базі даних MongoDB:
відсортовані значення атрибутів
уточнені імена атрибутів
сортувальні теги категорій
поля sortOrder, пов’язані з продуктами
Це забезпечує легке перевіряння, перезапис, повторну обробку та синхронізацію з іншими системами.
Лінія потоку даних: від сирих даних до пошуку
Після сортування дані потрапляють у:
Elasticsearch для пошуку за ключовими словами із послідовною логікою фільтрів
Vespa для семантичного та векторного пошуку
Завдяки цьому забезпечується:
логічний порядок фільтрів
послідовність атрибутів на сторінках продукту
точніше ранжування пошукових систем
інтуїтивний пошук по категоріях для клієнтів
Архітектура у загальних рисах
Модульна конвеєрна лінія працює за цим сценарієм:
Дані продукту надходять із системи управління інформацією про продукти
Завдання витягу атрибутів отримує значення та контекст категорій
Це передається до сервісу AI Sorting
Оновлені документи продуктів зберігаються у MongoDB
Завдання Outbound Sync оновлює систему управління інформацією
Завдання синхронізації Elasticsearch і Vespa передають відсортовані дані у свої пошукові системи
API-сервіси з’єднують пошукові системи з клієнтськими додатками
Цей цикл гарантує, що кожен відсортований або вручну встановлений атрибут відображається у пошуку, мерчандайзингу та досвіді користувача.
Практичні результати
Перетворення сирих значень у структуровану видачу:
Атрибут
Сирі значення
Відсортована видача
Розмір
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Колір
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, Red (RAL 3020)
Матеріал
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Числові
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Ці приклади демонструють взаємодію контекстного мислення та чітких правил.
Вимірювані результати
Послідовне сортування атрибутів для понад 3М SKU
Передбачуване числове сортування через детерміністичні резерви
Повний контроль продавця через ручне тегування
Чистіші сторінки продуктів і інтуїтивні фільтри
Покращена релевантність і ранжування пошуку
Збільшення довіри клієнтів і зростання конверсії
Основні висновки
Гібридні конвеєри перевершують чистий AI у масштабах
Контекст — фундамент для точності LLM
Офлайн-завдання — необхідні для пропускної здатності та стійкості
Механізми ручного перезапису формують довіру
Чисті вхідні дані — основа для надійних результатів AI
Найбільше усвідомлення: головні проблеми електронної комерції часто не у яскравих викликах, а у тихих труднощах, що щодня впливають на кожну сторінку продукту. За допомогою розумної архітектури систем і гібридних підходів AI хаос стає системним і масштабованим.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Масштабна електронна комерція: як інженери-програмісти систематично вирішують хаос атрибутів
Сортування атрибутів продукту може здаватися банальним — поки не доведеться робити це для трьох мільйонів SKU. Прихована складність систем електронної комерції полягає не у великих викликах, таких як розподілений пошук або облік в реальному часі. Основний каркас — це цілісність даних: розміри, кольори, матеріали та інші атрибути продукту мають бути точно та передбачувано структуровані.
Проблема реальна. У реальних каталогах товарів можна побачити хаотичні значення: розміри як “XL”, “Small”, “12cm”, “Large”, “M”, “S” змішані. Кольори як “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Матеріали як “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”. Кожна окрема неконсистентність здається нешкідливою, але при масштабі у мільйони продуктів вона стає системною. Фільтри працюють непередбачувано, пошукові системи втрачають релевантність, а досвід користувача погіршується.
Основна стратегія: гібридний інтелект із чіткими правилами
Замість використання чорної скриньки AI, інженер розробив контрольовану гібридну конвеєрну лінію. Мета — не містична автоматизація, а рішення, яке одночасно:
Ця лінія поєднує контекстне мислення великих мовних моделей (LLMs) з детерміністичними правилами та контролем продавця. Вона діє розумно, але завжди зрозуміла — AI з кермовими обмеженнями, а не неконтрольована штучна інтелігенція.
Офлайн-обробка замість реального часу: стратегічне рішення
Вся обробка атрибутів виконується у фонових задачах, а не у системах у реальному часі. Це було свідомо обрано, оскільки pipelines у реальному часі для масштабів електронної комерції призводять до:
З іншого боку, офлайн-завдання забезпечують:
Цей розподіл між інтерфейсами користувача та системами обробки даних є критичним при мільйонах SKU.
Конвеєр обробки: від сирих даних до інтелекту
Перед застосуванням AI виконується важливий попередній етап обробки:
Цей крок значно зменшує шум і суттєво покращує здатність мовної моделі мислити. Правило просте: чистий вхід = надійний вихід. У масштабі навіть невеликі помилки з часом призводять до накопичених проблем.
Далі сервіс LLM отримує:
З цим контекстом модель може розрізняти, що “напряження” у електроінструментах — числове, “розмір” у одязі слідує стандартним розмірам, “колір” можливо відповідає стандартам RAL. Відповідь складається з:
Детерміністичні резерви: AI там, де потрібно
Не кожен атрибут потребує обробки AI. Лінія автоматично визначає, які атрибути краще обробляти детерміністично:
Це зменшує кількість викликів LLM і робить систему ефективнішою.
Контроль людини та довіра
Кожна категорія може позначатися як LLM_SORT (Модель визначає) або MANUAL_SORT (Продавець визначає). Ця двовекторна система гарантує, що остаточні рішення приймають люди, а AI виконує важку роботу. Продавці можуть будь-коли перезаписати модель, не зупиняючи лінію — важливий механізм довіри.
Усі результати зберігаються у базі даних MongoDB:
Це забезпечує легке перевіряння, перезапис, повторну обробку та синхронізацію з іншими системами.
Лінія потоку даних: від сирих даних до пошуку
Після сортування дані потрапляють у:
Завдяки цьому забезпечується:
Архітектура у загальних рисах
Модульна конвеєрна лінія працює за цим сценарієм:
Цей цикл гарантує, що кожен відсортований або вручну встановлений атрибут відображається у пошуку, мерчандайзингу та досвіді користувача.
Практичні результати
Перетворення сирих значень у структуровану видачу:
Ці приклади демонструють взаємодію контекстного мислення та чітких правил.
Вимірювані результати
Основні висновки
Найбільше усвідомлення: головні проблеми електронної комерції часто не у яскравих викликах, а у тихих труднощах, що щодня впливають на кожну сторінку продукту. За допомогою розумної архітектури систем і гібридних підходів AI хаос стає системним і масштабованим.