AI代理70%的时间无法完成任务。

摘要： 本文介绍了TheAgentCompany，一个用于评估AI代理在执行现实世界任务中表现的基准。该基准模拟了一个小型软件公司的环境，并创建了各种可能由公司员工执行的任务。测试了基于闭源API和开源权重语言模型的基线代理，发现最具有竞争力的代理可以自主完成30%的任务。这表明，在模拟真实工作场所的环境中，许多简单任务可以自主解决，但更复杂的长远任务仍超出现有系统的能力。

讨论： 该内容讨论了人工智能代理的可靠性问题。一方面，有信息指出今年代理的可靠性从10%提升到了30%，这是一个重要的进步。另一方面，有人认为AI可能只是下一个泡沫，其识别真实作者的能力有限，并可能被用于操纵市场和地缘政治。此外，还提到了一项测试，其中最具有竞争力的代理能够自主完成30%的任务。

原文标题：AI agents fail tasks 70% of the time
原文链接：https://arxiv.org/abs/2412.14161
讨论链接：https://news.ycombinator.com/item?id=44877132