Comércio eletrónico em grande escala: Como os engenheiros de software resolvem sistematicamente o caos de atributos

A ordenação de atributos de produto pode parecer trivial – até ter que fazê-lo para três milhões de SKUs. A complexidade escondida dos sistemas de comércio eletrónico não reside nos grandes desafios como busca distribuída ou inventário em tempo real. O verdadeiro pilar é a consistência dos dados: tamanhos, cores, materiais e outros atributos de produto devem estar estruturados de forma precisa e previsível.

O problema é real. Em catálogos de produtos reais, encontramos valores caóticos: tamanhos como “XL”, “Small”, “12cm”, “Large”, “M”, “S” misturados. Cores como “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Materiais como “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”. Cada inconsistência isolada parece inofensiva, mas multiplicada por milhões de produtos torna-se um problema sistémico. Os filtros funcionam de forma imprevisível, os motores de busca perdem relevância, e a experiência do cliente sofre.

A estratégia central: Inteligência híbrida com regras claras

Em vez de usar uma IA de caixa preta, um engenheiro de software desenhou uma pipeline híbrida controlada. O objetivo não era automação mística, mas uma solução que, ao mesmo tempo:

  • Seja explicável
  • Funcione de forma previsível
  • Escale a milhões de registros
  • Seja controlada por humanos

Esta pipeline combina o pensamento contextual de grandes modelos de linguagem (LLMs) com regras determinísticas e controlo humano. Ela age de forma inteligente, mas permanece sempre compreensível – IA com limites, não IA fora de controle.

Processamento offline em vez de em tempo real: Uma decisão estratégica

Todo o processamento de atributos ocorre em jobs de background, não em sistemas em tempo real. Essa escolha foi deliberada, pois pipelines em tempo real no escalonamento do comércio eletrónico levam a:

  • Latência imprevisível
  • Dependências frágeis
  • Picos de custo elevados
  • Instabilidade operacional

Por outro lado, jobs offline oferecem:

  • Alto throughput através de processamento em batch sem afetar o sistema ao vivo
  • Resiliência, pois falhas não atingem o tráfego de clientes
  • Controle de custos ao processar em horários de menor tráfego
  • Isolamento da latência do LLM em relação às páginas de produto
  • Atualizações atômicas e previsíveis

Essa separação entre interfaces de cliente e pipelines de processamento de dados é crucial em milhões de SKUs.

A pipeline de processamento: De dados brutos à inteligência

Antes de aplicar IA, ocorre uma etapa crítica de pré-processamento:

  • Remover espaços em branco
  • Eliminar valores vazios
  • Deduplicar duplicados
  • Estruturar informações de contexto de categorias

Essa etapa reduz significativamente o ruído e melhora a capacidade de raciocínio do modelo de linguagem. A regra é simples: entrada limpa = saída confiável. Em grande escala, erros pequenos podem acumular-se e gerar problemas maiores posteriormente.

O serviço LLM então recebe:

  • Valores de atributos limpos
  • Breadcrumbs de categoria para contextualização
  • Metadados de atributos

Com esse contexto, o modelo consegue distinguir que “Spannung” em ferramentas elétricas é numérico, que “Tamanho” em vestuário segue tamanhos padrão, que “Cor” pode corresponder a padrões RAL. A saída consiste em:

  • Valores ordenados em sequência lógica
  • Nomes de atributos refinados
  • Uma decisão: ordenação determinística ou contextual

Fallbacks determinísticos: IA só onde necessário

Nem todo atributo precisa de processamento por IA. A pipeline reconhece automaticamente quais atributos são melhor tratados por lógica determinística:

  • Faixas numéricas (mais rápido, previsível)
  • Valores baseados em unidades (2cm, 5cm, 12cm → 2cm, 5cm, 12cm, 20cm)
  • Quantidades simples (sem ambiguidade)

Isso reduz chamadas desnecessárias ao LLM e mantém o sistema eficiente.

Controlo humano e confiança

Cada categoria pode ser marcada como LLM_SORT (modelo decide) ou MANUAL_SORT (gestor define). Este sistema dual garante que as decisões finais sejam tomadas por humanos, enquanto a IA faz o trabalho pesado. Os gestores podem sobrescrever o modelo a qualquer momento, sem interromper a pipeline – um mecanismo importante de confiança.

Todos os resultados são armazenados numa base de dados MongoDB:

  • Valores de atributos ordenados
  • Nomes de atributos refinados
  • Tags de ordenação relacionados à categoria
  • Campos sortOrder relacionados ao produto

Isso permite verificar facilmente, sobrescrever, reprocessar e sincronizar com outros sistemas.

A linha de fluxo de dados: De dados brutos à pesquisa

Após a ordenação, os dados fluem para:

  • Elasticsearch para busca por palavras-chave com lógica de filtro consistente
  • Vespa para busca semântica e baseada em vetores

Assim, garante-se que:

  • Os filtros aparecem em sequência lógica
  • As páginas de produto exibem atributos consistentes
  • Os motores de busca classificam com maior precisão
  • Os clientes navegam por categorias de forma mais intuitiva

Visão geral da arquitetura

A pipeline modular segue este fluxo:

  1. Os dados do produto vêm do sistema de informação do produto
  2. O job de extração de atributos extrai valores e contexto de categoria
  3. Estes são enviados ao serviço de ordenação por IA
  4. Os documentos de produto atualizados são armazenados no MongoDB
  5. O job de sincronização de saída atualiza o sistema de informação do produto
  6. Os jobs de sincronização do Elasticsearch e Vespa transferem os dados ordenados para os seus sistemas de busca
  7. Os serviços API conectam os sistemas de busca às aplicações cliente

Este ciclo garante que cada valor de atributo ordenado ou manualmente definido seja refletido na pesquisa, merchandising e experiência do cliente.

Resultados na prática

A transformação de valores brutos em saída estruturada:

Atributo Valores brutos Saída ordenada
Tamanho XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Cor RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Material Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numérico 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Estes exemplos ilustram a combinação de raciocínio contextual e regras claras.

Impacto mensurável

  • Ordenação consistente de atributos em mais de 3M SKUs
  • Ordenação numérica previsível através de fallback determinístico
  • Controle total do gestor via marcação manual
  • Páginas de produto mais limpas e filtros mais intuitivos
  • Relevância e ranking de busca melhorados
  • Maior confiança do cliente e aumento das taxas de conversão

Conclusões principais

  • Pipelines híbridas superam o uso exclusivo de IA em grande escala
  • O contexto é fundamental para a precisão dos LLMs
  • Jobs offline são essenciais para throughput e resiliência
  • Mecanismos de sobrescrição humana constroem confiança
  • Dados limpos são a base para saídas confiáveis de IA

A maior aprendizagem: os problemas mais importantes do comércio eletrónico muitas vezes não são os espetaculares, mas os desafios silenciosos que atuam diariamente em cada página de produto. Através de uma arquitetura inteligente de sistemas e abordagens híbridas de IA, o caos torna-se sistemático e escalável.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)