提出了AbsenceBench基准,用于评估大语言模型检测文档中故意删除信息的能力
涵盖数值序列、诗歌和GitHub拉取请求三个领域
即便是Claude-3.7-Sonnet等最先进模型,在平均5千tokens上下文长度下F1-score仅为69.6%
分析指出由于Transformer注意力机制无法直接关注“空白”位置,模型难以识别缺失信息
展示了模型在检索已出现信息任务上表现超人,但在检测缺失信息这类相近任务上性能显著下降
Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"