E-Commerce dalam skala besar: Bagaimana insinyur perangkat lunak secara sistematis menyelesaikan kekacauan atribut

2026-01-09 11:23:04

Menyortir atribut produk terdengar sepele – sampai harus dilakukan untuk tiga juta SKU. Kompleksitas tersembunyi dari sistem E-Commerce tidak terletak pada tantangan besar seperti pencarian terdistribusi atau inventaris real-time. Tulang punggung sebenarnya adalah konsistensi data: ukuran, warna, bahan, dan atribut produk lainnya harus disusun secara tepat dan dapat diprediksi.

Masalah ini nyata. Dalam katalog produk nyata, kita melihat nilai yang kacau: ukuran seperti “XL”, “Small”, “12cm”, “Large”, “M”, “S” bercampur. Warna seperti “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Bahan seperti “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”. Setiap inkonsistensi tampak sepele, tetapi jika dikalikan dengan jutaan produk, menjadi sistemik. Filter berfungsi tidak dapat diprediksi, mesin pencari kehilangan relevansi, dan pengalaman pelanggan terganggu.

Strategi Inti: Hybrid-Intelligence dengan aturan yang jelas

Alih-alih menggunakan AI kotak hitam, seorang insinyur perangkat lunak merancang pipeline hybrid yang terkendali. Tujuannya bukan otomatisasi mistis, melainkan solusi yang sekaligus:

Dapat dijelaskan
Berfungsi secara prediktif
Skalabel untuk jutaan data
Dapat dikendalikan manusia

Pipeline ini menggabungkan pemikiran kontekstual dari model bahasa besar (LLMs) dengan aturan deterministik dan kontrol dari pedagang. Ia bertindak secara cerdas, tetapi selalu dapat dilacak – AI dengan pagar pembatas, bukan AI di luar kendali.

Pemrosesan offline daripada real-time: Keputusan strategis

Seluruh pemrosesan atribut berjalan dalam pekerjaan latar belakang, bukan dalam sistem waktu nyata. Ini sengaja dipilih, karena pipeline waktu nyata dalam skala E-Commerce menyebabkan:

Latensi tak terprediksi
Ketergantungan rapuh
Puncak biaya komputasi
Ketidakstabilan operasional

Sebaliknya, pekerjaan offline menawarkan:

Throughput tinggi melalui pemrosesan batch tanpa mengganggu sistem langsung
Ketahanan, karena kegagalan tidak mempengaruhi lalu lintas pelanggan
Pengendalian biaya melalui pemrosesan terjadwal di jam-jam sepi
Isolasi dari latensi LLM terhadap halaman produk
Pembaruan atomik dan prediktif

Pemisahan antara antarmuka pelanggan dan pipeline pemrosesan data ini sangat penting saat menangani jutaan SKU.

Pipeline pemrosesan: Dari data mentah ke kecerdasan

Sebelum AI diterapkan, dilakukan langkah praproses kritis:

Trim whitespace
Hapus nilai kosong
Deduplikasi duplikat
Strukturkan informasi konteks kategori

Langkah ini secara signifikan mengurangi noise dan meningkatkan kemampuan berpikir model bahasa. Aturannya sederhana: Input bersih = output yang dapat diandalkan. Dalam skala besar, kesalahan kecil pun nanti menumpuk menjadi masalah.

Layanan LLM kemudian menerima:

Nilai atribut yang dibersihkan
Breadcrumb kategori untuk kontekstualisasi
Metadata atribut

Dengan konteks ini, model dapat membedakan bahwa “Spannung” dalam alat listrik bersifat numerik, “Ukuran” dalam pakaian mengikuti ukuran standar, “Warna” mungkin sesuai standar RAL. Hasilnya berupa:

Nilai yang diurutkan secara logis
Nama atribut yang diperhalus
Keputusan: pengurutan deterministik atau kontekstual

Fallback deterministik: AI hanya bila perlu

Tidak semua atribut membutuhkan pemrosesan AI. Pipeline secara otomatis mengenali atribut mana yang lebih baik ditangani oleh logika deterministik:

Rentang numerik (lebih cepat, lebih prediktif)
Nilai berbasis satuan (2cm, 5cm, 12cm → 2cm, 5cm, 12cm, 20cm)
Jumlah sederhana (tanpa ambiguitas)

Ini mengurangi panggilan LLM yang tidak perlu dan menjaga efisiensi sistem.

Kontrol manusia dan kepercayaan

Setiap kategori dapat ditandai sebagai LLM_SORT (model memutuskan) atau MANUAL_SORT (pedagang tentukan). Sistem ganda ini memastikan bahwa manusia yang membuat keputusan akhir, sementara AI melakukan pekerjaan berat. Pedagang dapat menimpa model kapan saja tanpa menghentikan pipeline – mekanisme kepercayaan yang penting.

Semua hasil disimpan dalam database MongoDB:

Nilai atribut yang diurutkan
Nama atribut yang diperhalus
Tag sort terkait kategori
Field sortOrder terkait produk

Ini memudahkan pemeriksaan, penimpaan, pengolahan ulang, dan sinkronisasi dengan sistem lain.

Jalur aliran data: Dari data mentah ke pencarian

Setelah pengurutan, data mengalir ke:

Elasticsearch untuk pencarian berbasis kata kunci dengan logika filter yang konsisten
Vespa untuk pencarian semantik dan berbasis vektor

Dengan ini dijamin bahwa:

Filter muncul dalam urutan logis
Halaman produk menampilkan atribut yang konsisten
Mesin pencari memberi peringkat lebih akurat
Pelanggan menelusuri kategori secara lebih intuitif

Ikhtisar arsitektur

Pipeline modular mengikuti alur ini:

Data produk berasal dari sistem informasi produk
Pekerjaan ekstraksi atribut menarik nilai dan konteks kategori
Nilai ini dikirim ke layanan pengurutan AI
Dokumen produk yang diperbarui disimpan di MongoDB
Pekerjaan sinkronisasi keluar memperbarui sistem informasi produk
Pekerjaan sinkronisasi Elasticsearch dan Vespa mentransfer data yang diurutkan ke sistem pencarian mereka
Layanan API menghubungkan sistem pencarian dengan aplikasi klien

Siklus ini memastikan bahwa setiap atribut yang diurutkan atau ditandai secara manual tercermin dalam pencarian, merchandising, dan pengalaman pelanggan.

Hasil nyata di lapangan

Transformasi dari nilai mentah ke output terstruktur:

Atribut	Nilai Mentah	Output Terurut
Ukuran	XL, Small, 12cm, Large, M, S	Small, M, Large, XL, 12cm
Warna	RAL 3020, Crimson, Red, Dark Red	Red, Dark Red, Crimson, Red (RAL 3020)
Bahan	Steel, Carbon Steel, Stainless, Stainless Steel	Steel, Stainless Steel, Carbon Steel
Numerik	5cm, 12cm, 2cm, 20cm	2cm, 5cm, 12cm, 20cm

Contoh ini menunjukkan kolaborasi antara pemikiran kontekstual dan aturan yang jelas.

Dampak yang terukur

Pengurutan atribut yang konsisten di atas 3J+ SKU
Pengurutan numerik yang prediktif melalui fallback deterministik
Kontrol penuh dari pedagang melalui penandaan manual
Halaman produk yang lebih bersih dan filter yang lebih intuitif
Relevansi dan peringkat pencarian yang lebih baik
Kepercayaan pelanggan yang meningkat dan rasio konversi yang meningkat

Temuan utama

Pipeline hybrid mengungguli AI murni dalam skala besar
Konteks adalah fundamental untuk akurasi LLM
Pekerjaan offline penting untuk throughput dan ketahanan
Mekanisme penimpaan manusia membangun kepercayaan
Data input yang bersih adalah fondasi untuk keluaran AI yang andal

Pembelajaran terbesar: Masalah E-Commerce terpenting sering kali bukan yang spektakuler, melainkan tantangan diam-diam yang bekerja setiap hari di setiap halaman produk. Melalui arsitektur sistem yang cerdas dan pendekatan hybrid AI, kekacauan dapat diatasi secara sistematis dan skalabel.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.