Практичний шлях вирішення хаосу у властивостях продуктів масштабної електронної комерції за допомогою AI

Коли люди обговорюють масштабування електронної комерції, вони зазвичай зосереджуються на таких великих технологічних викликах, як розподілений пошук, інвентаризація, рекомендаційні системи. Але справжні головні проблеми для кожної платформи — це найпростіші питання: невідповідність значень атрибутів.

Значення атрибутів визначають всю систему пошуку продуктів. Вони підтримують фільтрацію, порівняння, ранжування та логіку рекомендацій. Однак у реальному каталозі товари рідко мають чисті значення. Повторення, хаотичний формат, нечітка семантика — це норма.

Розглянемо, наприклад, такий простий атрибут, як “розмір”: [“XL”, “Small”, “12cm”, “Large”, “M”, “S”]

Або “колір”: [“RAL 3020”, “Crimson”, “Red”, “Dark Red”]

Самі по собі ці набори здаються не проблемою, але коли у вас понад 3 мільйони SKU, кожен з яких має десятки атрибутів, — це стає системною проблемою. Пошук стає хаотичним, рекомендації — неефективними, операційна команда змушена витрачати час на ручне виправлення, а користувацький досвід стрімко погіршується.

Подолання мислення “чорної скриньки”: концепція гібридної системи штучного інтелекту

У відповідь на цю проблему важливо уникнути пастки “чорної коробки AI” — системи, яка загадково сортує дані, і ніхто не може зрозуміти або контролювати її.

Правильний підхід — побудувати конвеєр із такими характеристиками:

  • Висока пояснюваність
  • Передбачувана поведінка
  • Можливість масштабування
  • Можливість ручного втручання

Кінцеве рішення — гібридний AI-конвеєр: здатність LLM розуміти контекст у поєднанні з чіткими правилами та людським контролем. Він працює розумно там, де потрібно, але залишається контрольованим. Це AI з обмеженнями, а не неконтрольований AI.

Офлайн обробка: основа масштабованої архітектури

Усі обробки атрибутів виконуються у фонових офлайн-завданнях, а не в режимі реального часу. Це не компроміс, а стратегічне архітектурне рішення.

Реальний конвеєр здається привабливим, але при масштабах електронної комерції він призводить до:

  • непередбачуваних затримок
  • крихких залежностей
  • пікових обчислювальних витрат
  • складності в обслуговуванні

З іншого боку, офлайн-завдання забезпечують:

  • Високу пропускну здатність: пакетна обробка величезних обсягів даних без впливу на клієнтські системи
  • Захист від збоїв: несправності ніколи не зачеплять користувацький трафік
  • Контроль витрат: обчислення можна планувати у низькі навантаження
  • Ізоляцію: затримки LLM незалежні від сторінки товару
  • Атомарну цілісність: оновлення передбачувані та синхронізовані

При роботі з десятками мільйонів SKU ізоляція систем клієнтських систем і обробних конвеєрів є критичною.

Очистка даних: найвищий коефіцієнт “вклад/віддача”

Перед застосуванням AI потрібно провести строгий передобробний етап, який здається простим, але має значний вплив.

Процес очищення включає:

  • видалення пробілів на початку та в кінці
  • видалення порожніх значень
  • усунення дублів
  • спрощення шляхів класифікації у структуровані рядки

Це гарантує, що LLM отримує чистий і зрозумілий вхід. У масштабних системах навіть невеликий шум може згодом перерости у великі проблеми. “Гарне” вхідне — “гарний” вихід. Це базове правило стає особливо важливим при роботі з мільйонами даних.

Контекстуалізація сервісу LLM

LLM — це не просто сортування атрибутів за алфавітом. Вона справді розуміє їх значення.

Цей сервіс приймає:

  • очищені значення атрибутів
  • інформацію про категорії (хлібні крихти)
  • метадані атрибутів

З цим контекстом модель може зрозуміти:

  • у електроінструментах “напруга” має сортуватися за числовим значенням
  • у одязі “розмір” слідує логічній послідовності (S→M→L→XL)
  • у фарбах “колір” може використовувати стандарт RAL (наприклад, RAL 3020)
  • у апаратурі “матеріал” має семантичні зв’язки (сталь→нержавіюча сталь→вуглецева сталь)

Модель повертає:

  • відсортовані значення
  • коректні назви атрибутів
  • маркер рішення: використовувати детерміноване сортування чи контекстуальне

Це дозволяє конвеєру обробляти різні типи атрибутів без жорсткого кодування правил для кожної категорії.

Детерміноване відновлення: коли AI не потрібно

Не всі атрибути потребують AI. Насправді багато з них краще обробляти детермінованою логікою.

Наприклад, числові діапазони, стандартизовані значення або прості множини — це швидко, прозоро, економічно та без двозначностей.

Конвеєр автоматично визначає ці випадки і застосовує детерміновану логіку, зберігаючи ефективність і зменшуючи кількість викликів LLM.

Баланс влади: система тегів для продавців

Продавці повинні зберігати контроль, особливо щодо ключових атрибутів. Тому кожна категорія може мати два теги:

  • LLM_SORT — модель визначає порядок
  • MANUAL_SORT — продавець вручну встановлює порядок

Ця двотегова система дозволяє людині зберігати остаточне слово, водночас AI виконує більшу частину роботи. Вона також створює довіру — продавець знає, що може будь-коли перезаписати рішення моделі без перерв у конвеєрі.

Збереження даних: MongoDB як єдине джерело істини

Усі результати зберігаються безпосередньо у Product MongoDB, що зберігає архітектуру простою та централізованою. MongoDB виступає як єдине операційне сховище для:

  • відсортованих значень атрибутів
  • повних назв атрибутів
  • тегів категорійних рівнів
  • полів сортування товарів

Це дозволяє легко виконувати аудит змін, перезапис значень, повторну обробку категорій і синхронізацію з іншими системами.

Замкнутий цикл пошуку: від даних до відкриття

Після сортування значення потрапляють у:

  • Elasticsearch — пошук за ключовими словами
  • Vespa — семантичний та векторний пошук

Це забезпечує:

  • логічний порядок фільтрів
  • узгодженість атрибутів на сторінках товарів
  • більш точне ранжування результатів пошуку
  • інтуїтивний та плавний перегляд категорій користувачем

Магія сортування атрибутів найкраще проявляється у пошуку — тут найважливіша узгодженість.

Загальна картина системи: від сирих даних до інтерфейсу користувача

Щоб працювати з мільйонами SKU, я створив модульний конвеєр, орієнтований на фонові завдання, AI-розрахунки та інтеграцію пошуку:

Потік даних:

  • джерело — система управління товарами
  • завдання витягання атрибутів — отримання значень і контексту категорій
  • ці дані передаються до сервісу AI для сортування
  • оновлені документи товарів записуються у Product MongoDB
  • асинхронні задачі синхронізують результати з системою управління товарами
  • задачі оновлення індексів у Elasticsearch і Vespa
  • API-сервіси з’єднують пошукові системи з клієнтськими додатками

Цей процес гарантує, що кожне значення атрибуту — будь то автоматичне сортування або ручне — відображається у пошуку, на вітрині та у кінцевому досвіді користувача.

Реальні результати трансформації

Як саме хаотичні значення перетворюються:

Атрибут Початкові хаотичні значення Відсортовані значення
Розмір XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Колір RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, RAL 3020
Матеріал Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Значення 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Ці приклади демонструють, як конвеєр поєднує контекстне мислення із чіткими правилами для створення чистих, зрозумілих послідовностей.

Чому обирати офлайн, а не реальний час?

Якщо обробляти у реальному часі, виникають:

  • непередбачувані затримки
  • високі обчислювальні витрати
  • крихкі залежності
  • ускладнення в обслуговуванні

З іншого боку, офлайн-завдання забезпечують:

  • пакетну обробку з високою пропускною здатністю
  • асинхронні виклики LLM
  • механізми повторних спроб і черги з мертвими листами
  • можливість ручної перевірки
  • передбачувані витрати

Хоча це додає невелику затримку між введенням даних і їх відображенням, переваги у масштабованості та узгодженості — це те, що цінують клієнти.

Бізнес-ефекти

Результати очевидні:

  • узгодженість атрибутів для понад 3 мільйонів SKU
  • передбачуване числове сортування через детерміновані відкатки
  • гнучкий контроль продавців через ручні теги
  • чисті сторінки товарів і зручний фільтр
  • покращена релевантність пошуку
  • підвищення довіри користувачів і конверсії

Це не лише технічна перемога, а й покращення користувацького досвіду та доходів.

Основні висновки

  • Гібридний конвеєр при масштабах переважає чистий AI. Обмежувачі важливі.
  • Контекст значно підвищує точність LLM
  • Офлайн-завдання — основа пропускної здатності та стійкості
  • Механізм ручного контролю формує довіру та прийняття
  • Чистий вхід — запорука надійного AI-виходу

Підсумок

Сортування значень атрибутів здається простим, але при роботі з мільйонами товарів стає справжнім викликом. Поєднавши інтелект LLM із чіткими правилами та контролем продавця, можна перетворити цю приховану, але поширену проблему у чисту, масштабовану систему.

Це нагадування: найбільші перемоги — це рішення тих дрібних, нудних проблем, які часто ігнорують — тих, що щодня з’являються на кожній сторінці товару.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити