摘要: 本文介绍了Qodo团队创建的基准数据集,该数据集包含从大型代码库中提取的真实世界问题。该数据集旨在支持对代码库检索系统的进一步研究和开发。文章详细描述了数据集的生成过程,包括使用拉取请求(PR)作为复杂代码变更的来源,并利用大型语言模型(LLM)生成相关的问题。此外,文章还介绍了数据集的统计信息、评估机制和基准测试结果,并提供了数据集、方法和提示的具体信息。
讨论: 本文讨论了关于代码基准测试的一些观点。作者four_fifths指出,大多数流行的基准测试与实际任务几乎没有相关性,但提到一个从操作系统的源代码请求反向工程问题的方法对于基准测试来说非常周到。Tiberium提到,Codex的性能几乎与Qodo的定制解决方案相当,且只需花费20美元的ChatGPT订阅费用即可使用,而不需要支付高昂的企业Qodo计划费用。esafak提到了Qodo的新发布的“上下文代理”。asdev认为,在代码搜索和代码理解方面,有代理的搜索已经足够好,而复杂的索引技术只会稍微提高性能。
原文标题:DeepCodeBench: Real-World Codebase Understanding by Q&A Benchmarking
原文链接:https://www.qodo.ai/blog/deepcodebench-real-world-codebase-understanding-by-qa-benchmarking/
讨论链接:https://news.ycombinator.com/item?id=45209532