E-Commerce dalam skala besar: Bagaimana insinyur perangkat lunak secara sistematis menyelesaikan kekacauan atribut

Menyortir atribut produk terdengar sepele – sampai harus dilakukan untuk tiga juta SKU. Kompleksitas tersembunyi dari sistem E-Commerce tidak terletak pada tantangan besar seperti pencarian terdistribusi atau inventaris real-time. Tulang punggung sebenarnya adalah konsistensi data: ukuran, warna, bahan, dan atribut produk lainnya harus disusun secara tepat dan dapat diprediksi.

Masalah ini nyata. Dalam katalog produk nyata, kita melihat nilai yang kacau: ukuran seperti “XL”, “Small”, “12cm”, “Large”, “M”, “S” bercampur. Warna seperti “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Bahan seperti “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”. Setiap inkonsistensi tampak sepele, tetapi jika dikalikan dengan jutaan produk, menjadi sistemik. Filter berfungsi tidak dapat diprediksi, mesin pencari kehilangan relevansi, dan pengalaman pelanggan terganggu.

Strategi Inti: Hybrid-Intelligence dengan aturan yang jelas

Alih-alih menggunakan AI kotak hitam, seorang insinyur perangkat lunak merancang pipeline hybrid yang terkendali. Tujuannya bukan otomatisasi mistis, melainkan solusi yang sekaligus:

  • Dapat dijelaskan
  • Berfungsi secara prediktif
  • Skalabel untuk jutaan data
  • Dapat dikendalikan manusia

Pipeline ini menggabungkan pemikiran kontekstual dari model bahasa besar (LLMs) dengan aturan deterministik dan kontrol dari pedagang. Ia bertindak secara cerdas, tetapi selalu dapat dilacak – AI dengan pagar pembatas, bukan AI di luar kendali.

Pemrosesan offline daripada real-time: Keputusan strategis

Seluruh pemrosesan atribut berjalan dalam pekerjaan latar belakang, bukan dalam sistem waktu nyata. Ini sengaja dipilih, karena pipeline waktu nyata dalam skala E-Commerce menyebabkan:

  • Latensi tak terprediksi
  • Ketergantungan rapuh
  • Puncak biaya komputasi
  • Ketidakstabilan operasional

Sebaliknya, pekerjaan offline menawarkan:

  • Throughput tinggi melalui pemrosesan batch tanpa mengganggu sistem langsung
  • Ketahanan, karena kegagalan tidak mempengaruhi lalu lintas pelanggan
  • Pengendalian biaya melalui pemrosesan terjadwal di jam-jam sepi
  • Isolasi dari latensi LLM terhadap halaman produk
  • Pembaruan atomik dan prediktif

Pemisahan antara antarmuka pelanggan dan pipeline pemrosesan data ini sangat penting saat menangani jutaan SKU.

Pipeline pemrosesan: Dari data mentah ke kecerdasan

Sebelum AI diterapkan, dilakukan langkah praproses kritis:

  • Trim whitespace
  • Hapus nilai kosong
  • Deduplikasi duplikat
  • Strukturkan informasi konteks kategori

Langkah ini secara signifikan mengurangi noise dan meningkatkan kemampuan berpikir model bahasa. Aturannya sederhana: Input bersih = output yang dapat diandalkan. Dalam skala besar, kesalahan kecil pun nanti menumpuk menjadi masalah.

Layanan LLM kemudian menerima:

  • Nilai atribut yang dibersihkan
  • Breadcrumb kategori untuk kontekstualisasi
  • Metadata atribut

Dengan konteks ini, model dapat membedakan bahwa “Spannung” dalam alat listrik bersifat numerik, “Ukuran” dalam pakaian mengikuti ukuran standar, “Warna” mungkin sesuai standar RAL. Hasilnya berupa:

  • Nilai yang diurutkan secara logis
  • Nama atribut yang diperhalus
  • Keputusan: pengurutan deterministik atau kontekstual

Fallback deterministik: AI hanya bila perlu

Tidak semua atribut membutuhkan pemrosesan AI. Pipeline secara otomatis mengenali atribut mana yang lebih baik ditangani oleh logika deterministik:

  • Rentang numerik (lebih cepat, lebih prediktif)
  • Nilai berbasis satuan (2cm, 5cm, 12cm → 2cm, 5cm, 12cm, 20cm)
  • Jumlah sederhana (tanpa ambiguitas)

Ini mengurangi panggilan LLM yang tidak perlu dan menjaga efisiensi sistem.

Kontrol manusia dan kepercayaan

Setiap kategori dapat ditandai sebagai LLM_SORT (model memutuskan) atau MANUAL_SORT (pedagang tentukan). Sistem ganda ini memastikan bahwa manusia yang membuat keputusan akhir, sementara AI melakukan pekerjaan berat. Pedagang dapat menimpa model kapan saja tanpa menghentikan pipeline – mekanisme kepercayaan yang penting.

Semua hasil disimpan dalam database MongoDB:

  • Nilai atribut yang diurutkan
  • Nama atribut yang diperhalus
  • Tag sort terkait kategori
  • Field sortOrder terkait produk

Ini memudahkan pemeriksaan, penimpaan, pengolahan ulang, dan sinkronisasi dengan sistem lain.

Jalur aliran data: Dari data mentah ke pencarian

Setelah pengurutan, data mengalir ke:

  • Elasticsearch untuk pencarian berbasis kata kunci dengan logika filter yang konsisten
  • Vespa untuk pencarian semantik dan berbasis vektor

Dengan ini dijamin bahwa:

  • Filter muncul dalam urutan logis
  • Halaman produk menampilkan atribut yang konsisten
  • Mesin pencari memberi peringkat lebih akurat
  • Pelanggan menelusuri kategori secara lebih intuitif

Ikhtisar arsitektur

Pipeline modular mengikuti alur ini:

  1. Data produk berasal dari sistem informasi produk
  2. Pekerjaan ekstraksi atribut menarik nilai dan konteks kategori
  3. Nilai ini dikirim ke layanan pengurutan AI
  4. Dokumen produk yang diperbarui disimpan di MongoDB
  5. Pekerjaan sinkronisasi keluar memperbarui sistem informasi produk
  6. Pekerjaan sinkronisasi Elasticsearch dan Vespa mentransfer data yang diurutkan ke sistem pencarian mereka
  7. Layanan API menghubungkan sistem pencarian dengan aplikasi klien

Siklus ini memastikan bahwa setiap atribut yang diurutkan atau ditandai secara manual tercermin dalam pencarian, merchandising, dan pengalaman pelanggan.

Hasil nyata di lapangan

Transformasi dari nilai mentah ke output terstruktur:

Atribut Nilai Mentah Output Terurut
Ukuran XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Warna RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Bahan Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numerik 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Contoh ini menunjukkan kolaborasi antara pemikiran kontekstual dan aturan yang jelas.

Dampak yang terukur

  • Pengurutan atribut yang konsisten di atas 3J+ SKU
  • Pengurutan numerik yang prediktif melalui fallback deterministik
  • Kontrol penuh dari pedagang melalui penandaan manual
  • Halaman produk yang lebih bersih dan filter yang lebih intuitif
  • Relevansi dan peringkat pencarian yang lebih baik
  • Kepercayaan pelanggan yang meningkat dan rasio konversi yang meningkat

Temuan utama

  • Pipeline hybrid mengungguli AI murni dalam skala besar
  • Konteks adalah fundamental untuk akurasi LLM
  • Pekerjaan offline penting untuk throughput dan ketahanan
  • Mekanisme penimpaan manusia membangun kepercayaan
  • Data input yang bersih adalah fondasi untuk keluaran AI yang andal

Pembelajaran terbesar: Masalah E-Commerce terpenting sering kali bukan yang spektakuler, melainkan tantangan diam-diam yang bekerja setiap hari di setiap halaman produk. Melalui arsitektur sistem yang cerdas dan pendekatan hybrid AI, kekacauan dapat diatasi secara sistematis dan skalabel.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)