No negócio de E-Commerce, as discussões técnicas frequentemente abordam temas como sistemas de busca distribuídos, gestão de inventário em tempo real ou otimização do checkout. No entanto, um problema frequentemente subestimado, mas sistêmico, permanece oculto sob a superfície: a gestão confiável e a padronização de atributos de produto ao longo de milhões de SKUs.
O problema oculto: o caos de atributos na realidade
Atributos formam a base da descoberta de produtos. Eles controlam funcionalidades de filtro, comparações de produtos, algoritmos de ranking de busca e sistemas de recomendação. Nos catálogos de produtos reais, esses valores, porém, raramente são estruturados e consistentes. Um exemplo simples: o atributo “Tamanho” pode estar em um conjunto de dados como [“XL”, “Small”, “12cm”, “Large”, “M”, “S”], enquanto “Cor” pode estar como [“RAL 3020”, “Crimson”, “Red”, “Dark Red”].
Isoladamente, essas inconsistências parecem triviais. Mas, ao escalar esses problemas para 3 milhões de SKUs com dezenas de atributos cada, surge um problema sistêmico crítico. Os filtros tornam-se imprevisíveis, os motores de busca perdem relevância, e a navegação do cliente torna-se cada vez mais frustrante. Para operadores de grandes plataformas de E-Commerce, uma limpeza manual desses valores de atributos torna-se um pesadelo operacional.
Uma abordagem híbrida: IA com limites, não sistemas de caixa preta
O desafio era criar um sistema que fosse explicável, previsível, escalável e controlável por humanos. A chave não estava em uma caixa preta de IA indecifrável, mas em uma pipeline híbrida que combina Large Language Models (LLMs) com regras determinísticas e mecanismos de controle.
Esse conceito une raciocínio inteligente contextual com regras claras e compreensíveis. O sistema age de forma inteligente quando necessário, mas permanece sempre previsível e controlável.
Decisão arquitetônica: processamento offline em vez de em tempo real
Todo o processamento de atributos não ocorre em tempo real, mas por meio de jobs assíncronos de background. Essa não foi uma solução de compromisso, mas uma decisão arquitetônica consciente:
Pipelines em tempo real levariam a latências imprevisíveis, dependências frágeis, picos de processamento e instabilidade operacional. Jobs offline oferecem:
Alto throughput: grandes volumes de dados podem ser processados sem afetar sistemas ao vivo
Resiliência a falhas: erros no processamento de dados nunca afetam o tráfego do cliente
Controle de custos: cálculos podem ser agendados em horários de menor tráfego
Isolamento do sistema: a latência do LLM não impacta o desempenho das páginas de produto
Consistência atômica: atualizações previsíveis e sem contradições
A separação estrita entre sistemas voltados ao cliente e pipelines de processamento de dados é essencial ao trabalhar com milhões de SKUs.
A pipeline de processamento de atributos: de dados brutos a atributos estruturados
Fase 1: Limpeza e normalização de dados
Antes de aplicar modelos de IA aos valores de atributos, cada conjunto de dados passava por uma etapa de pré-processamento abrangente. Essa fase aparentemente simples era crucial para a qualidade dos resultados posteriores:
Remoção de espaços em branco
Eliminação de valores vazios
Deduplificação
Simplificação contextual de hierarquias de categorias
Essa etapa de limpeza garantia que o LLM recebesse entradas limpas e claras – uma condição fundamental para resultados consistentes. O princípio “Garbage In, Garbage Out” torna-se ainda mais crítico em grande escala.
Fase 2: Análise inteligente de atributos por LLMs
O sistema de LLM não apenas analisava alfabeticamente, mas compreendia o contexto semântico. O serviço recebia:
Valores de atributos limpos
Breadcrumbs de categorias com contexto hierárquico
Metadados sobre tipos de atributos
Com esse contexto, o modelo podia entender, por exemplo, que:
“Tensão” em ferramentas elétricas deve ser interpretada numericamente
“Tamanho” em roupas segue uma progressão de tamanhos conhecida
“Cor” em certas categorias pode atender aos padrões RAL
“Material” em produtos de hardware possui relações semânticas
O modelo retornava: valores ordenados, nomes de atributos refinados e uma classificação entre ordenação determinística ou contextual.
Fase 3: Fallbacks determinísticos para eficiência
Nem todo atributo precisava de processamento por IA. Faixas numéricas, valores baseados em unidades e categorias simples beneficiavam-se de:
Processamento mais rápido
Ordenação previsível
Custos de processamento menores
Exclusão completa de ambiguidades
A pipeline detectava esses casos automaticamente e aplicava lógica determinística – uma medida de eficiência que evitava chamadas desnecessárias ao LLM.
Fase 4: Tagging manual e controle por comerciantes
Embora a automação fosse a base, era necessário que os comerciantes tivessem controle sobre atributos críticos de negócio. Cada categoria podia ser marcada com tags:
LLM_SORT: o modelo decide a ordem de classificação
MANUAL_SORT: comerciantes definem a ordem final
Esse sistema de tags duplo permitia que humanos tomassem decisões inteligentes, enquanto a IA realizava a maior parte do trabalho. Isso também gerava confiança, pois os comerciantes podiam fazer ajustes quando necessário.
Persistência de dados e sincronização
Todos os resultados eram armazenados diretamente no Product-MongoDB, formando o único armazenamento operacional para:
Valores de atributos ordenados
Nomes de atributos refinados
Tags de ordenação específicas de categorias
Metadados de ordenação relacionados a produtos
Essa gestão centralizada de dados facilitava revisões, sobrescritas e reprocessamentos de categorias.
Integração com sistemas de busca
Após a ordenação, os valores de atributos padronizados eram sincronizados com soluções de busca:
Elasticsearch: para buscas por palavras-chave
Vespa: para buscas semânticas e baseadas em vetores
Isso garantia que:
Os filtros fossem exibidos em ordem lógica
As páginas de produto mostrassem atributos consistentes
Os motores de busca classificassem produtos com maior precisão
Os clientes pudessem explorar categorias de forma intuitiva
Transformação prática: do caos à estrutura
A pipeline transformava valores brutos caóticos em sequências consistentes e utilizáveis:
Atributo
Valores brutos
Saída estruturada
Tamanho
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Cor
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, RAL 3020
Material
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Numérico
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Estes exemplos ilustram como raciocínio contextual aliado a regras claras leva a sequências legíveis e lógicas.
Impactos operacionais e resultados de negócio
A implementação dessa estratégia de gestão de atributos gerou resultados mensuráveis:
Ordenação consistente de atributos em mais de 3 milhões de SKUs
Ordem numérica previsível por fallbacks determinísticos
Controle contínuo por comerciantes via opções de tagging manual
Páginas de produto mais limpas, com filtros mais intuitivos
Relevância e qualidade de ranking aprimoradas
Aumento na confiança do cliente e nas taxas de conversão
O sucesso não foi apenas técnico – impactou diretamente a experiência do usuário e os indicadores de negócio.
Principais aprendizados
Pipelines híbridos superam sistemas puramente de IA em grande escala. Limites e controle são essenciais
Contextualizar melhora drasticamente a precisão do LLM
Processamento offline é indispensável para throughput, resiliência e uso previsível de recursos
Mecanismos humanos de sobrescrição constroem confiança e aceitação operacional
Qualidade de dados é a base: entradas limpas levam a resultados confiáveis de IA
Conclusão
A gestão e padronização de atributos podem parecer trivial superficialmente, mas tornam-se um verdadeiro desafio de engenharia quando precisam ser aplicadas a milhões de produtos. Ao combinar raciocínio baseado em LLM com regras compreensíveis e controle operacional, foi possível transformar um problema oculto, mas crítico, em um sistema escalável e de manutenção viável. É um lembrete de que muitas vezes os maiores sucessos de negócio vêm da solução de problemas aparentemente “chatos” – aqueles que tendem a passar despercebidos, mas aparecem em cada página de produto.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Gestão escalável de dados: Como manter os valores de atributos consistentes em grandes catálogos de comércio eletrónico
No negócio de E-Commerce, as discussões técnicas frequentemente abordam temas como sistemas de busca distribuídos, gestão de inventário em tempo real ou otimização do checkout. No entanto, um problema frequentemente subestimado, mas sistêmico, permanece oculto sob a superfície: a gestão confiável e a padronização de atributos de produto ao longo de milhões de SKUs.
O problema oculto: o caos de atributos na realidade
Atributos formam a base da descoberta de produtos. Eles controlam funcionalidades de filtro, comparações de produtos, algoritmos de ranking de busca e sistemas de recomendação. Nos catálogos de produtos reais, esses valores, porém, raramente são estruturados e consistentes. Um exemplo simples: o atributo “Tamanho” pode estar em um conjunto de dados como [“XL”, “Small”, “12cm”, “Large”, “M”, “S”], enquanto “Cor” pode estar como [“RAL 3020”, “Crimson”, “Red”, “Dark Red”].
Isoladamente, essas inconsistências parecem triviais. Mas, ao escalar esses problemas para 3 milhões de SKUs com dezenas de atributos cada, surge um problema sistêmico crítico. Os filtros tornam-se imprevisíveis, os motores de busca perdem relevância, e a navegação do cliente torna-se cada vez mais frustrante. Para operadores de grandes plataformas de E-Commerce, uma limpeza manual desses valores de atributos torna-se um pesadelo operacional.
Uma abordagem híbrida: IA com limites, não sistemas de caixa preta
O desafio era criar um sistema que fosse explicável, previsível, escalável e controlável por humanos. A chave não estava em uma caixa preta de IA indecifrável, mas em uma pipeline híbrida que combina Large Language Models (LLMs) com regras determinísticas e mecanismos de controle.
Esse conceito une raciocínio inteligente contextual com regras claras e compreensíveis. O sistema age de forma inteligente quando necessário, mas permanece sempre previsível e controlável.
Decisão arquitetônica: processamento offline em vez de em tempo real
Todo o processamento de atributos não ocorre em tempo real, mas por meio de jobs assíncronos de background. Essa não foi uma solução de compromisso, mas uma decisão arquitetônica consciente:
Pipelines em tempo real levariam a latências imprevisíveis, dependências frágeis, picos de processamento e instabilidade operacional. Jobs offline oferecem:
A separação estrita entre sistemas voltados ao cliente e pipelines de processamento de dados é essencial ao trabalhar com milhões de SKUs.
A pipeline de processamento de atributos: de dados brutos a atributos estruturados
Fase 1: Limpeza e normalização de dados
Antes de aplicar modelos de IA aos valores de atributos, cada conjunto de dados passava por uma etapa de pré-processamento abrangente. Essa fase aparentemente simples era crucial para a qualidade dos resultados posteriores:
Essa etapa de limpeza garantia que o LLM recebesse entradas limpas e claras – uma condição fundamental para resultados consistentes. O princípio “Garbage In, Garbage Out” torna-se ainda mais crítico em grande escala.
Fase 2: Análise inteligente de atributos por LLMs
O sistema de LLM não apenas analisava alfabeticamente, mas compreendia o contexto semântico. O serviço recebia:
Com esse contexto, o modelo podia entender, por exemplo, que:
O modelo retornava: valores ordenados, nomes de atributos refinados e uma classificação entre ordenação determinística ou contextual.
Fase 3: Fallbacks determinísticos para eficiência
Nem todo atributo precisava de processamento por IA. Faixas numéricas, valores baseados em unidades e categorias simples beneficiavam-se de:
A pipeline detectava esses casos automaticamente e aplicava lógica determinística – uma medida de eficiência que evitava chamadas desnecessárias ao LLM.
Fase 4: Tagging manual e controle por comerciantes
Embora a automação fosse a base, era necessário que os comerciantes tivessem controle sobre atributos críticos de negócio. Cada categoria podia ser marcada com tags:
Esse sistema de tags duplo permitia que humanos tomassem decisões inteligentes, enquanto a IA realizava a maior parte do trabalho. Isso também gerava confiança, pois os comerciantes podiam fazer ajustes quando necessário.
Persistência de dados e sincronização
Todos os resultados eram armazenados diretamente no Product-MongoDB, formando o único armazenamento operacional para:
Essa gestão centralizada de dados facilitava revisões, sobrescritas e reprocessamentos de categorias.
Integração com sistemas de busca
Após a ordenação, os valores de atributos padronizados eram sincronizados com soluções de busca:
Isso garantia que:
Transformação prática: do caos à estrutura
A pipeline transformava valores brutos caóticos em sequências consistentes e utilizáveis:
Estes exemplos ilustram como raciocínio contextual aliado a regras claras leva a sequências legíveis e lógicas.
Impactos operacionais e resultados de negócio
A implementação dessa estratégia de gestão de atributos gerou resultados mensuráveis:
O sucesso não foi apenas técnico – impactou diretamente a experiência do usuário e os indicadores de negócio.
Principais aprendizados
Conclusão
A gestão e padronização de atributos podem parecer trivial superficialmente, mas tornam-se um verdadeiro desafio de engenharia quando precisam ser aplicadas a milhões de produtos. Ao combinar raciocínio baseado em LLM com regras compreensíveis e controle operacional, foi possível transformar um problema oculto, mas crítico, em um sistema escalável e de manutenção viável. É um lembrete de que muitas vezes os maiores sucessos de negócio vêm da solução de problemas aparentemente “chatos” – aqueles que tendem a passar despercebidos, mas aparecem em cada página de produto.