你的位置:米乐体育app官方网站 > 米乐盘口 > 米乐app下载 超6万GitHub神气实测: AI Agent写代码后果暴涨, 通过率仍落伍东说念主类
米乐app下载 超6万GitHub神气实测: AI Agent写代码后果暴涨, 通过率仍落伍东说念主类
发布日期:2026-02-18 12:26    点击次数:199

米乐app下载 超6万GitHub神气实测: AI Agent写代码后果暴涨, 通过率仍落伍东说念主类

当 AI 用 3 天完成东说念主类范例员蓝本3年的代码任务量,东说念主类的变装会发生怎么的变化?

现时,AI 正在从器具变为东说念主类的“队友”。跟着大模子的加快发展,AI 在软件工程界限的作用已不再是接济代码补全,而是正在成为可自主编码的智能体(Agent)。

当今,咱们只需向 AI 描述代码思要已矣的功能,它就能自动生成完满代码;借助 Agent,致使能在十几分钟内完成千行级别的代码生成或修改。

{jz:field.toptypename/}

近期,加拿大女王大学博士后李豪与所在团队在一项盘登第初度构建了一个大限制数据集 AIDev,系统分析和统计了自主编码 Agent 在 7,000 多个较流行的软件中的内容理会和影响。

其袒护范围包括在 GitHub 平台上已提交的超 45.6 万条 Agent 代码合并苦求(PR,pull requests),涵盖 6.1 万个代码库和 4.7 万名开荒者,包括主流的 AI 编码器具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。

图丨李豪(着手:受访者)

盘考东说念主员在 AI 界限和软件工程作念干系盘考时,经常会遴聘请 SWE-bench 作念测试,通过交给 AI 一些高质地、有测试样例的任务,来优化 AI 性能以及优化系统假想等。

但这也带来了许多挑战性的问题。举例,一家公司淌若将测试题目用于覆按模子,极有可能因“舞弊”导致分数虚高。此外,由于 SWE-bench 是一个静态的基准集(benchmark),部分数据有可能存在一定滞后性。

李豪指出,该盘考最大的不同点在于,AIDev 是果真全国、大限制、及时网罗数据的数据集,米兰体育官网更靠近于业界施行和分娩。此外,盘考东说念主员还不错期骗该数据集打造更新的 benchmark。

图丨自主编码 Agent 在总计代码库及热点代码库中的蓄积 PR 量(着手:arXiv)

盘考团队在 AI 编码 Agent 的速率和质处所面找到了意旨的发现。一项个例分析适度流露,有开荒者在使用 AI 编码 Agent 后,3 天内完成的任务量接近其已往 3 年的总量。

而 AI 在当然说话处理方面的上风,也一样值得热心。他们发现,AI 在编写代码或文本方面的任务中理会优异,举例从文档干系的合并苦求经受率来看,OpenAI Codex 和 Claude Code 永别为 88.6% 和 85.7%,而东说念主类在该方面理会为 76.5%。

表丨AIDev 数据集(完满数据集)与 AIDev-pop(GitHub 上大于 500 星的仓库)的统计分析(着手:arXiv)

合并苦求经受率是揣度 AI 产出质地和果真度的要津目的,它与东说念主类开荒者/神气贵重者对 AI 孝顺的招供度密切干系。该团队还发现,编码 Agent 的合并苦求经受率比东说念主类开荒者低 15% 至 40%(不同任务类型下区间各异显赫),尤其是在新功能开荒、建造 Bug 等复杂的任务方面。举例,米乐app下载OpenAI Codex 的 PR 经受率为 64%,而东说念主类开荒者的 PR 经受率高达 76.8%。

这意味着,AI 写代码并非全面极度了东说念主类。需要看到的是,尽管面前 AI 编码 Agent 生成速率很快,但性能方面还有一些劣势,在结构上也相对较简便,需要盘考东说念主员无间对其进行增强,以确保代码的长久可贵重性。

李豪对 DeepTech 示意:“短期看,AI Agent 的代码经受率相对东说念主类较低,后果与质地的弃取仍需衡量(trade-off),但这种磨合期对应的是数据飞轮的驱动阶段,酿成飞轮效应后,咱们有望取得分娩力的显赫提高。”

该盘考通过分析自主编码 Agent 的理会,为异日更好地优化东说念主与 AI 配合提供了数据基础。这也带来了一种全新的生成花式,开荒者濒临的问题不是怎么写更多的代码,而是接到一项任务后,怎么拆分红更细的任务,再处理这些 AI 更好地实行。

“该见地在学界和产业界还存在较大的空缺。编程东说念主员的变装也会逐渐从写代码的东说念主,调治成提供代码审查或提供处理花式的东说念主。面前,咱们也在作念干系的盘考,来探索新一代软件开荒经由来撑握开荒者们期骗 AI Agent。”李豪示意。

此外盘考还揭示出,尽管 AI 的出现鼓励了东说念主机协同审查经由,但同期也可能会带来偏见等问题。举例,假如 AI 写代码的 Agent 与审查代码的机器东说念主自吞并公司,很有可能在AI审查样式残忍某些特定类型的波折。

在异日的盘登第,该团队运筹帷幄成就更全面的 benchmark,对 AI 编程 Agent 进行果真的理会评测。他们还假想成就新学问库,鼓励界限内的盘考东说念主员共同创新干系见地,包括怎么更好地揣度和分析AI可能的失败场景,以及失败原因等。从更长久的发展来看,探索更自动化与圭臬化的审查机制,亦然一个值得真切盘考的见地。

干系论文以《软件工程 3.0 中 AI 队友的崛起:自主编码 Agent 怎么重塑软件工程》(The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering)为题发表在 arXiv[1]。面前,干系代码已在 GitHub 开源。

参考云尔:

1.干系论文:https://arxiv.org/abs/2507.15003v1

{jz:field.toptypename/}

2.AIDev 数据集获取:https://github.com/SAILResearch/AI_Teammates_in_SE3

排版:胡莉花