Escalabilidade do comércio eletrónico: Como pipelines orientadas por IA mantêm atributos de produto consistentes

No E-Commerce, grandes desafios técnicos como consultas distribuídas, gestão de inventário em tempo real e sistemas de recomendação são frequentemente discutidos. Mas por trás das cenas, existe um problema sistemático persistente que preocupa os comerciantes em todo o mundo: a gestão e normalização dos valores de atributos de produtos. Esses valores formam a base da descoberta de produtos. Eles influenciam filtros, funções de comparação, posições de busca e lógicas de recomendação diretamente. Nos catálogos reais, esses valores raramente são consistentes. Frequentemente, encontram-se duplicados, erros de formatação ou ambiguidades semânticas.

Um exemplo simples ilustra a magnitude: numa indicação de tamanho, podem coexistir “XL”, “Small”, “12cm”, “Large”, “M” e “S”. Em cores, aparecem valores como “RAL 3020”, “Crimson”, “Red” e “Dark Red” misturados – padrões como RAL 3020 e descrições livres se misturam de forma descontrolada. Multiplicando essas inconsistências por vários milhões de SKUs, revela-se a profundidade do problema. Os filtros tornam-se pouco confiáveis, os motores de busca perdem precisão, a limpeza manual de dados torna-se uma tarefa hercúlea, e os clientes enfrentam uma experiência frustrante na descoberta de produtos.

A estratégia central: inteligência com limites claros

Uma solução puramente de caixa preta de IA não foi considerada. Esses sistemas são difíceis de entender, depurar e controlar em milhões de SKUs. Em vez disso, o objetivo era uma pipeline previsível, explicável e controlável por humanos – IA que age de forma inteligente, sem perder o controle.

A resposta estava numa arquitetura híbrida, que combina inteligência contextual de LLM com regras determinísticas e controles humanos. O sistema deveria atender a três critérios:

  • Rastreabilidade nas decisões
  • Previsibilidade nos processos
  • Opções de intervenção humana em dados críticos

Processamento offline em vez de pipelines em tempo real

Um passo arquitetônico decisivo foi a escolha por tarefas de background offline em vez de pipelines em tempo real. Isso pode parecer um retrocesso, mas é uma estratégia inteligente:

Sistemas em tempo real levam a latências imprevisíveis, dependências frágeis, picos de processamento caros e maior vulnerabilidade operacional. Tarefas offline oferecem:

  • Eficiência de throughput: processam grandes volumes de dados sem sobrecarregar sistemas ao vivo
  • Robustez: erros de processamento nunca afetam o tráfego de clientes
  • Otimização de custos: cálculos podem ser agendados em horários de baixa demanda
  • Isolamento: latência de LLM não impacta a performance das páginas de produto
  • Previsibilidade: atualizações são atômicas e reproduzíveis

Com milhões de registros de produtos, essa desacoplamento entre sistemas voltados ao cliente e processamento de dados é indispensável.

Limpeza de dados como base

Antes do uso de IA, um passo essencial de pré-processamento eliminava ruído. O modelo recebia apenas entradas limpas e claras:

  • Normalização de espaços em branco (espaços iniciais e finais)
  • Remoção de valores vazios
  • Eliminação de duplicados de valores
  • Simplificação do contexto de categorias (transformar breadcrumbs em strings estruturados)

Esse passo aparentemente simples melhorou significativamente a precisão do modelo de linguagem. O princípio é universal: com essa quantidade de dados, pequenos erros de entrada podem gerar cascatas de problemas posteriormente.

Processamento contextual com LLM

O modelo de linguagem não fazia uma ordenação mecânica. Com contexto suficiente, podia aplicar raciocínio semântico:

O modelo recebia:

  • valores de atributos limpos
  • metadados de categoria (ex.: “Ferramentas elétricas”, “Vestuário”, “Hardware”)
  • classificações de atributos

Com esse contexto, o modelo entendia:

  • Que “Tensão” em ferramentas elétricas deveria ser numérica
  • Que “Tamanho” em vestuário segue uma progressão estabelecida (S, M, L, XL)
  • Que “Cor” em certas categorias respeita padronizações como RAL 3020
  • Que “Material” possui hierarquias semânticas

O modelo retornava:

  • uma lista ordenada de valores
  • descrições refinadas de atributos
  • uma classificação: ordenável de forma determinística ou por contexto

Isso permitia à pipeline lidar com diferentes tipos de atributos de forma flexível, sem codificar regras fixas para cada categoria.

Lógica determinística de fallback

Nem todo atributo precisava de inteligência de IA. Valores numéricos, tamanhos com unidades e quantidades simples se beneficiavam de:

  • processamento mais rápido
  • previsibilidade garantida
  • custos menores
  • eliminação de ambiguidades

A pipeline reconhecia esses casos automaticamente e aplicava lógica de ordenação determinística. O sistema permanecia eficiente, evitando chamadas desnecessárias ao LLM.

Controle humano via sistemas de tagging

Para atributos críticos, os comerciantes precisavam de decisão final. Cada categoria podia ser marcada com tags:

  • LLM_SORT: decisão de ordenação pelo modelo de linguagem
  • MANUAL_SORT: comerciantes definem explicitamente a ordem

Esse sistema dual funcionou bem: IA cuidava do trabalho rotineiro, humanos mantinham o controle. Isso gerava confiança e permitia que os comerciantes sobrescrevessem decisões do modelo quando necessário, sem interromper a pipeline.

Persistência em banco de dados centralizado

Todos os resultados eram armazenados diretamente no MongoDB, mantendo a arquitetura simples e de fácil manutenção:

MongoDB servia como armazenamento operacional para:

  • valores de atributos ordenados
  • nomes de atributos refinados
  • tags de ordenação específicas de categoria
  • metadados de campos de ordenação de produtos

Isso facilitava revisões, substituições específicas de valores, reprocessamento de categorias e sincronização com sistemas externos.

Integração com infraestrutura de busca

Após a normalização, os valores eram enviados a dois sistemas de busca:

  • Elasticsearch: para filtros por palavra-chave e busca por facetas
  • Vespa: para operações semânticas e de correspondência vetorial de produtos

Essa dualidade garantia:

  • filtros apresentados em ordem lógica e esperada
  • páginas de produto exibindo atributos consistentes
  • buscas mais precisas na classificação de produtos
  • experiência do cliente mais intuitiva

A camada de busca é onde a consistência de atributos é mais visível e de maior valor comercial.

Resultados práticos da transformação

A pipeline transformava valores brutos caóticos em saídas estruturadas:

Atributo Valores brutos Saída normalizada
Tamanho XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Cor RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, RAL 3020 (RAL 3020)
Material Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numérico 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Especialmente em atributos de cor, a importância do contexto ficou clara: o sistema reconheceu que RAL 3020 é um padrão de cor e o ordenou de forma lógica entre valores semanticamente semelhantes.

Visão geral da arquitetura do sistema

A pipeline modular orquestrava as seguintes etapas:

  1. Extrair dados de produto do sistema PIM (Product Information Management)
  2. Isolar valores de atributos e contexto de categoria via job de extração de atributos
  3. Enviar dados limpos ao serviço de ordenação por IA
  4. Escrever documentos de produto atualizados no MongoDB
  5. Job de sincronização de saída atualiza o sistema PIM fonte
  6. Jobs de sincronização do Elasticsearch e Vespa sincronizam dados ordenados em seus índices
  7. Camadas de API conectam sistemas de busca às aplicações clientes

Esse fluxo garantiu que cada valor normalizado – seja ordenado por IA ou manualmente definido – fosse refletido de forma consistente na busca, merchandising e experiência do cliente.

Por que processamento offline foi a escolha certa

Pipelines em tempo real trariam latência imprevisível, custos computacionais elevados e dependências frágeis. Tarefas offline permitiram:

  • Processamento em lote eficiente
  • Chamadas assíncronas ao LLM sem pressão em tempo real
  • Mecanismos de retry robustos e filas de erro
  • Janela de validação humana
  • Custos de cálculo previsíveis e controlados

A troca foi uma pequena demora entre captura de dados e exibição, mas o ganho – confiabilidade em grande escala – é valioso para o cliente.

Impactos comerciais e técnicos

A solução gerou resultados mensuráveis:

  • Ordenação consistente de atributos em mais de 3 milhões de SKUs
  • Ordenação previsível de valores numéricos via fallback determinístico
  • Controle descentralizado por comerciantes via tagging manual
  • Páginas de produto mais limpas e filtros mais intuitivos
  • Melhor relevância de busca e precisão no ranking
  • Maior confiança do cliente e aumento na taxa de conversão

Não foi apenas um projeto técnico; foi um alavancador direto na experiência do usuário e no crescimento de receita.

Lições principais para escala de produto

  • Sistemas híbridos superam IA pura em grande escala. Limites e controles são essenciais.
  • Contexto é o multiplicador da precisão do LLM. Entradas limpas e relevantes para a categoria geram saídas confiáveis.
  • Processamento offline não é um compromisso, mas uma necessidade arquitetônica para throughput e resiliência.
  • Opções de sobrescrição humana aumentam a confiança. Sistemas controlados por humanos são mais rapidamente aceitos.
  • Qualidade dos dados na entrada determina confiabilidade na saída. Limpeza não é overhead, é a base.

Reflexão final

Normalizar valores de atributos parece um problema simples – até precisar resolvê-lo para milhões de variantes de produtos. Combinando inteligência de modelos de linguagem com regras determinísticas e controles humanos, transformou-se um problema oculto e persistente em um sistema elegante e de manutenção fácil.

Lembre-se: algumas das vitórias técnicas mais valiosas não vêm de inovações brilhantes, mas da solução sistemática de problemas invisíveis – aqueles que atuam diariamente em cada página de produto, mas raramente recebem atenção.

VON11,73%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)