大規模言語モデル(LLM)は明示的に省略された情報の検出に苦戦する
AbsenceBenchを導入し、数値列・詩・GitHubプルリクエストの3領域で欠落箇所検出を評価
最先端モデルClaude-3.7-SonnetでさえF1スコア69.6%と低性能
Transformerの注意機構は「情報の欠落」を直接参照できない構造的制約が原因
既存のタスク(NIAH)での超人的性能と、欠落検出タスクでの性能崩壊を対比する事例
Get notified when new stories are published for "🇯🇵 Hacker News 日本語"