Model Whisper large-v3 selalu menghasilkan teks “ترجمة نانسي قنقر” saat diberi audio hening pada mode bahasa Arab.
Versi v3 berbeda dari model sebelumnya karena tidak memiliki fallback deskripsi audio sehingga lebih sering berhalusinasi pada keheningan.
Model Whisper sebelumnya juga memunculkan teks tidak relevan saat keheningan, namun dapat dikurangi dengan trik seperti suppress_tokens, prompt awal “.”, dan menyesuaikan logprob_threshold.
Hallusinasi serupa juga dilaporkan dalam bahasa Jerman (“Untertitelung des ZDF für funk, 2017”), Inggris (tepuk tangan atau ajakan like and subscribe), dan Norwegia.
Halusinasi disebabkan data pelatihan yang memuat audio YouTube dan subtitle hak cipta di akhir video, sehingga keheningan diasosiasikan dengan teks tersebut.
Solusi yang diusulkan termasuk menggunakan Voice Activity Detection (VAD) dan menyesuaikan parameter model untuk mengurangi halusinasi.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"