AI代理在长时间任务中的成功率呈现衰减趋势,每分钟的失败率可能是常量,类似于放射性物质的半衰期。
METR的研究表明,前沿AI代理解决任务的时长每7个月翻倍,表明AI能力在稳步增长。
AI代理在长时间任务上显示出的成功率下降趋势可以通过生存分析中的常数危险率模型来解释。
虽然目前观察到的AI性能提升可靠,但这些结论在其他任务中的普遍适用性仍需进一步验证。
观察到AI代理和人类在任务时间长度上的表现差异,这可能揭示当前AI在处理任务方面的不足之处。
现有数据宝表明,人工智能代理的改进形式似乎是全时间周期的风险率降低。例如,每7个月风险率减半。
Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"