SWE-Bench 原理介绍
Intro一个“好”的基准测试可以用来反应LMs在现实世界应用的表现,以帮助塑造他们未来的的发展。但构建一个"好”的Benchmark也是困难的,因为这要求:任务要有挑战性模型预测需要是能够且容易验证的现有的编码基准测试(如HumanEval)大多涉及自包含问题(Self-contained problem)。自包含问题指的是不依赖外部上下文或复杂依赖关系的问题,所有必要的信息和代码都已在问题本身中完整提供,可以在一个小范围内(如几行代码内)被理解和解决。一个简单的例子如下:def factorial(n: int) -> in...
