摘要: 本文介绍了TheAgentCompany,一个用于评估AI代理在执行现实世界任务中表现的基准。该基准模拟了一个小型软件公司的环境,并创建了各种可能由公司员工执行的任务。测试了基于闭源API和开源权重语言模型的基线代理,发现最具有竞争力的代理可以自主完成30%的任务。这表明,在模拟真实工作场所的环境中,许多简单任务可以自主解决,但更复杂的长远任务仍超出现有系统的能力。
讨论: 该内容讨论了人工智能代理的可靠性问题。一方面,有信息指出今年代理的可靠性从10%提升到了30%,这是一个重要的进步。另一方面,有人认为AI可能只是下一个泡沫,其识别真实作者的能力有限,并可能被用于操纵市场和地缘政治。此外,还提到了一项测试,其中最具有竞争力的代理能够自主完成30%的任务。
原文标题:AI agents fail tasks 70% of the time
原文链接:https://arxiv.org/abs/2412.14161
讨论链接:https://news.ycombinator.com/item?id=44877132