Perusahaan startup kecerdasan buatan aiOla meluncurkan solusi baru yang dapat merevolusi peningkatan akurasi pengenalan suara. Sistem "Gerbang Pintar Suara" yang dirilis perusahaan ini dapat menganalisis suara pengguna secara real-time dan secara otomatis terhubung ke model pengenalan suara yang paling sesuai. Sistem ini memilih model yang mampu mencapai akurasi terbaik setelah menilai secara dinamis karakteristik bahasa yang kompleks.
"DRAX" yang dipublikasikan aiOla tahun lalu adalah model AI suara yang mengatasi batasan pengenalan suara tradisional melalui teknologi pembelajaran aliran paralel. DRAX mampu memproses semua kalimat secara bersamaan dan menunjukkan performa yang kuat saat menghadapi variabel nyata seperti kebisingan lingkungan dan intonasi. Berdasarkan teknologi ini, teknologi baru yang dirilis kali ini, "QUASAR", secara otomatis memilih model yang paling cocok dari banyak mesin pengenalan suara otomatis dengan menganalisis fitur suara, intonasi pembicara, keberadaan kebisingan, konteks, dan informasi lainnya.
Pasar AI suara saat ini meskipun didominasi oleh beberapa penyedia layanan ASR seperti Whisper dari OpenAI, Transcribe dari Amazon, Qwen2 dari Alibaba, dan Deepgram, sebagian besar perusahaan masih hanya menggunakan satu model yang menunjukkan performa terbaik dalam evaluasi standar. Hal ini menyebabkan tingginya tingkat kesalahan pengenalan di lingkungan nyata, dan kritik terhadap pengalaman pengguna yang menurun secara signifikan terus berlanjut.
Co-founder sekaligus Presiden aiOla, Amir Haramaty, menunjukkan kondisi di mana perusahaan terpaksa menanggung kekurangan dari model ASR tertentu: "Beberapa model sangat unggul dalam menangani bahasa Inggris Amerika, tetapi sering kali tidak mampu saat menghadapi intonasi Inggris atau lingkungan yang berisik." Dia menegaskan, "QUASAR adalah sistem pertama yang memandang pengenalan suara sebagai masalah dinamis, bukan teknologi statis."
aiOla menguji sistem ini secara internal dalam berbagai kondisi nyata seperti variasi intonasi, kebisingan latar belakang, dan konten profesional. Hasilnya menunjukkan bahwa dalam 88,8% permintaan respons, sistem ini dapat secara dinamis memilih mesin ASR terbaik untuk meningkatkan akurasi. Teknologi ini diperkirakan akan secara signifikan meningkatkan pemahaman dialog manusia-mesin di bidang dukungan pelanggan, pencatatan rapat, sistem respons otomatis, dan lain-lain.
Haramaty menyatakan, "Seiring pengenalan suara secara bertahap menjadi antarmuka dasar yang menghubungkan manusia dan AI, kesalahan pengenalan menjadi tidak dapat diterima." Dia menyebut QUASAR sebagai "teknologi yang mengubah ASR menjadi infrastruktur hidup," dan menambahkan, "Ini bukan hanya terobosan teknologi, tetapi juga revolusi yang dapat mempengaruhi dari pusat panggilan global yang menangani miliaran panggilan hingga pengembang independen yang mengembangkan fitur subtitle."
aiOla berencana untuk secara besar-besaran meningkatkan kegunaan dan keandalan antarmuka AI suara melalui teknologi ini, menciptakan titik balik struktural bagi seluruh ekosistem suara AI.