Cómo las arquitecturas de IA híbridas gestionan de manera coherente millones de atributos de productos

El problema oculto del escalado en el comercio electrónico

La mayoría habla de búsqueda distribuida y motores de recomendación cuando se trata de escalar en el comercio electrónico. Pero bajo la superficie se esconde un problema más persistente y a menudo pasado por alto: la gestión de los valores de atributos en los catálogos de productos. Con más de 3 millones de SKUs, esto rápidamente se convierte en un problema sistémico.

Los valores de atributos son la base del descubrimiento de productos. Impulsan filtros, comparaciones y rankings de búsqueda. Pero en la práctica están fragmentados: “XL”, “Small”, “12cm” y “Large” mezclados en un campo. O colores como “RAL 3020”, “Crimson”, “Red” y “Dark Red” sin estructura coherente. Multiplique estas inconsistencias por docenas de atributos por producto, y el problema se vuelve exponencial.

Los filtros se comportan de manera impredecible, la búsqueda pierde relevancia y la navegación del cliente se vuelve frustrante. Al mismo tiempo, los comerciantes se ahogan en limpieza manual de datos.

La respuesta: pipelines híbridos inteligentes con mecanismos de control

En lugar de una IA de caja negra que clasifica datos de forma arbitraria, surgió una arquitectura con tres pilares:

  • Explicabilidad: Cada decisión es rastreable
  • Previsibilidad: El sistema se comporta de manera consistente
  • Control humano: Los merchandisers pueden definir manualmente atributos críticos

El resultado fue una pipeline híbrida que combina la inteligencia de LLM con reglas claras y persistencia de datos. Actúa de manera inteligente, pero sigue siendo controlable—IA con barreras, no descontrolada.

Procesamiento offline en lugar de pipelines en tiempo real

Una decisión crítica de diseño fue optar por trabajos en segundo plano en lugar de sistemas en vivo. Esto suena como un compromiso, pero fue estratégicamente sensato:

El procesamiento en tiempo real habría significado:

  • Latencia impredecible
  • Dependencias frágiles del sistema
  • Picos de cálculo costosos
  • Complicaciones operativas

Los trabajos offline ofrecieron:

  • Alto rendimiento sin afectar a los clientes
  • Resiliencia: fallos que nunca afectaron sistemas en vivo
  • Control de costos mediante procesamiento programado
  • Aislamiento de la latencia de LLM
  • Actualizaciones atómicas y previsibles

La separación de sistemas relacionados con clientes y pipelines de procesamiento de datos es clave a escala de millones de SKUs.

Arquitectura con persistencia y consistencia

Toda la persistencia de datos se realizó mediante MongoDB como almacenamiento operativo central:

  • Extracción de atributos: El primer trabajo extraía valores en bruto y contexto de categoría
  • Servicio de IA: El LLM recibía datos limpios más información contextual (Breadcrumbs de categoría, metadatos)
  • Resguardos deterministas: Rangos numéricos y conjuntos simples se detectaron automáticamente y se ordenaron mediante reglas
  • Persistencia: Valores ordenados, nombres de atributos refinados y etiquetas de orden se almacenaron en MongoDB
  • Integración de búsqueda: Datos actualizados fluyeron a Elasticsearch (Búsqueda por palabras clave) y Vespa (Búsqueda semántica)

Esta estructura de persistencia permitía verificaciones sencillas, sobrescrituras y resincronizaciones con otros sistemas.

Control híbrido: IA y decisiones del comerciante

No todos los atributos requieren inteligencia de IA. Por eso, cada categoría podía marcarse como:

  • LLM_SORT: El modelo decide el ordenamiento
  • MANUAL_SORT: Los comerciantes definen el orden manualmente

Este sistema de etiquetas dual generó confianza. Las personas mantenían control sobre atributos críticos, mientras que la IA asumía tareas rutinarias—y sin interrumpir la pipeline.

Limpieza de datos como base

Antes de aplicar IA, se realizó un paso crítico de preprocesamiento:

  • Recortar espacios
  • Eliminar valores vacíos
  • Deduplciar duplicados
  • Estandarizar contextos de categoría

Esta limpieza aparentemente sencilla mejoró drásticamente la precisión del LLM. Entradas limpias conducían a resultados coherentes—un principio fundamental a gran escala.

Transformación en la práctica

La pipeline transformaba datos en bruto caóticos en salidas estructuradas:

Atributo Valores en bruto Salida ordenada
Tamaño XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Color RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Material Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numérico 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Impacto en el negocio

Los resultados fueron sustanciales:

  • Ordenamiento coherente de atributos en más de 3M+ SKUs
  • Orden numérico predecible mediante lógica determinista
  • Mejora en la relevancia de búsqueda
  • Filtros más intuitivos en páginas de productos
  • Mayor confianza del cliente y mejor tasa de conversión

No fue solo un éxito técnico—fue una mejora en la experiencia del usuario y en las ventas.

Conclusiones clave

  • Híbrido supera a IA pura: Barreras son esenciales a gran escala
  • El contexto es rey: Mejor contexto = resultados mucho mejores en LLM
  • Arquitectura offline crea resiliencia: Trabajos en segundo plano son fundamentales para el rendimiento
  • Persistencia sin pérdida de control: Mecanismos humanos de sobrescritura generan confianza
  • Entradas limpias = salidas confiables: La calidad de los datos decide el éxito de la IA

Conclusión

Ordenar valores de atributos puede parecer trivial, pero se vuelve un problema real con millones de productos. La combinación de inteligencia LLM, reglas explícitas, persistencia y control humano creó un sistema que resuelve elegantemente desafíos complejos y ocultos. Nos recuerda que los mayores logros a menudo nacen de resolver problemas aburridos y pasados por alto—aquellos que impactan en cada página de producto.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)