OpenAI merilis makalah penelitian terbaru, menyatakan bahwa meskipun model bahasa besar (LLM) seperti GPT-5 telah mengalami banyak kemajuan, tetapi "ilusi AI" (Hallucinations) tetap menjadi masalah mendasar yang bahkan tidak mungkin dihilangkan sepenuhnya. Tim penelitian melalui eksperimen mengungkapkan bahwa model, ketika menjawab pertanyaan tertentu, akan sangat percaya diri tetapi memberikan jawaban yang sepenuhnya salah, dan mengusulkan sebuah rencana reformasi "mekanisme evaluasi" baru, berharap dapat mengurangi situasi "tebakan acak" dari model.
Peneliti menguji model AI dengan berbagai pertanyaan, semua jawaban salah.
Peneliti bertanya kepada sebuah chatbot yang banyak digunakan tentang judul disertasi seorang doktor, dan hasilnya mendapatkan tiga jawaban yang semuanya salah. Selanjutnya, ketika ditanya tentang tanggal lahirnya, chatbot tersebut juga memberikan tiga tanggal berbeda, dan hasilnya masih semuanya salah.
Penelitian menunjukkan bahwa model AI sangat percaya diri memberikan jawaban ketika menghadapi "informasi yang sangat tidak umum" dalam beberapa data, tetapi jawabannya bisa sangat salah.
Mekanisme pra-pelatihan hanya mempelajari "permukaan bahasa", tidak memahami kebenaran fakta
Penelitian menunjukkan bahwa proses pra-pelatihan model dilakukan melalui banyak teks untuk "memprediksi kata berikutnya", tetapi data tidak diberi label "benar atau salah". Dengan kata lain, model hanya belajar permukaan bahasa, bukan kebenaran fakta.
Kesalahan pada hal-hal dengan pola tinggi seperti penyusunan huruf atau tanda kurung akan berangsur hilang seiring dengan semakin besarnya skala model.
Namun, informasi yang memiliki tingkat keacakan tinggi seperti "ulang tahun seseorang" tidak dapat disimpulkan melalui pola bahasa, sehingga mudah menghasilkan ilusi.
Model AI didorong untuk "menebak buta", perlu memperbaiki mode evaluasi model
Penelitian menekankan bahwa cara evaluasi perlu diubah secara besar-besaran, fokusnya bukan hanya melihat "benar atau salah", tetapi harus menghukum dengan berat jawaban yang salah namun sangat percaya diri, dan memberi penghargaan kepada AI untuk "jujur mengaku tidak tahu". Dengan kata lain, jika AI memberikan jawaban yang salah, seharusnya lebih dihukum daripada mengakui tidak tahu.
Sebaliknya, jika ia menjawab "tidak yakin", seharusnya tetap mendapatkan beberapa poin, dan tidak langsung dihitung sebagai nol. Selain itu, ini tidak boleh hanya menambah beberapa tes untuk tampak baik, tetapi harus sepenuhnya membongkar sistem evaluasi yang saat ini hanya melihat tingkat kebenaran. Tanpa mengubah cara evaluasi, AI hanya akan terus menebak dengan sembarangan.
Penelitian terakhir menunjukkan bahwa untuk mengurangi ilusi, kita harus mulai dari sistem evaluasi, membangun metode pengujian yang benar-benar mendorong "kehati-hatian dan kejujuran". Alih-alih meminta AI "selalu benar", yang lebih penting adalah membangun aturan permainan yang dapat menerima bahwa AI "tidak tahu".
(2025 Analisis Lengkap 5 LLM Utama Terbaru, Pembayaran, Aplikasi, dan Keamanan Sekali Lihat )
Artikel ini OpenAI penelitian terbaru: Mengapa GPT-5 dan LLM lainnya masih bisa berbicara sembarangan pertama kali muncul di Berita Blockchain ABMedia.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Penelitian terbaru OpenAI: Mengapa GPT-5 dan LLM lainnya masih bisa berbicara ngawur
OpenAI merilis makalah penelitian terbaru, menyatakan bahwa meskipun model bahasa besar (LLM) seperti GPT-5 telah mengalami banyak kemajuan, tetapi "ilusi AI" (Hallucinations) tetap menjadi masalah mendasar yang bahkan tidak mungkin dihilangkan sepenuhnya. Tim penelitian melalui eksperimen mengungkapkan bahwa model, ketika menjawab pertanyaan tertentu, akan sangat percaya diri tetapi memberikan jawaban yang sepenuhnya salah, dan mengusulkan sebuah rencana reformasi "mekanisme evaluasi" baru, berharap dapat mengurangi situasi "tebakan acak" dari model.
Peneliti menguji model AI dengan berbagai pertanyaan, semua jawaban salah.
Peneliti bertanya kepada sebuah chatbot yang banyak digunakan tentang judul disertasi seorang doktor, dan hasilnya mendapatkan tiga jawaban yang semuanya salah. Selanjutnya, ketika ditanya tentang tanggal lahirnya, chatbot tersebut juga memberikan tiga tanggal berbeda, dan hasilnya masih semuanya salah.
Penelitian menunjukkan bahwa model AI sangat percaya diri memberikan jawaban ketika menghadapi "informasi yang sangat tidak umum" dalam beberapa data, tetapi jawabannya bisa sangat salah.
Mekanisme pra-pelatihan hanya mempelajari "permukaan bahasa", tidak memahami kebenaran fakta
Penelitian menunjukkan bahwa proses pra-pelatihan model dilakukan melalui banyak teks untuk "memprediksi kata berikutnya", tetapi data tidak diberi label "benar atau salah". Dengan kata lain, model hanya belajar permukaan bahasa, bukan kebenaran fakta.
Kesalahan pada hal-hal dengan pola tinggi seperti penyusunan huruf atau tanda kurung akan berangsur hilang seiring dengan semakin besarnya skala model.
Namun, informasi yang memiliki tingkat keacakan tinggi seperti "ulang tahun seseorang" tidak dapat disimpulkan melalui pola bahasa, sehingga mudah menghasilkan ilusi.
Model AI didorong untuk "menebak buta", perlu memperbaiki mode evaluasi model
Penelitian menekankan bahwa cara evaluasi perlu diubah secara besar-besaran, fokusnya bukan hanya melihat "benar atau salah", tetapi harus menghukum dengan berat jawaban yang salah namun sangat percaya diri, dan memberi penghargaan kepada AI untuk "jujur mengaku tidak tahu". Dengan kata lain, jika AI memberikan jawaban yang salah, seharusnya lebih dihukum daripada mengakui tidak tahu.
Sebaliknya, jika ia menjawab "tidak yakin", seharusnya tetap mendapatkan beberapa poin, dan tidak langsung dihitung sebagai nol. Selain itu, ini tidak boleh hanya menambah beberapa tes untuk tampak baik, tetapi harus sepenuhnya membongkar sistem evaluasi yang saat ini hanya melihat tingkat kebenaran. Tanpa mengubah cara evaluasi, AI hanya akan terus menebak dengan sembarangan.
Penelitian terakhir menunjukkan bahwa untuk mengurangi ilusi, kita harus mulai dari sistem evaluasi, membangun metode pengujian yang benar-benar mendorong "kehati-hatian dan kejujuran". Alih-alih meminta AI "selalu benar", yang lebih penting adalah membangun aturan permainan yang dapat menerima bahwa AI "tidak tahu".
(2025 Analisis Lengkap 5 LLM Utama Terbaru, Pembayaran, Aplikasi, dan Keamanan Sekali Lihat )
Artikel ini OpenAI penelitian terbaru: Mengapa GPT-5 dan LLM lainnya masih bisa berbicara sembarangan pertama kali muncul di Berita Blockchain ABMedia.