Penulis mengevaluasi 11 model bahasa menggunakan 130 prompt nyata dari riwayat bash berdasarkan akurasi, biaya, dan latensi.
Semua model umumnya memberikan jawaban tepat, sehingga faktor biaya dan kecepatan menjadi penentu utama.
Model tertutup (Google Gemini Pro, Anthropic Claude Sonnet) tidak lebih unggul dan sering kalah dari model terbuka.
Google Gemini 2.5 Flash terbukti paling cepat dan efisien, sementara Gemini 2.5 Pro terlalu mahal.
Mode reasoning hanya membantu signifikan pada tugas kompleks seperti pembuatan puisi.
Deepseek-chat-v3.1 dan varian Qwen3 menjadi pilihan terbaik untuk keseimbangan akurasi, biaya, dan kecepatan.
Penulis menggunakan beberapa model sekaligus agar mendapatkan jawaban yang lebih andal dan cepat.
Evaluasi dilakukan secara buta menggunakan Open Router dan skrip Rust untuk mencatat biaya dan latensi setiap model.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"