软件工程

共 2 篇文章

排序

发布更新浏览点赞

OpenAI发布GPT-5.2-Codex：最强智能体编程模型登场，可自主完成漏洞挖掘与PR提交

OpenAI发布GPT-5.2-Codex：最强智能体编程模型登场，可自主完成漏洞挖掘与PR提交

OpenAI今日正式推出其迄今最先进的智能体编程模型——GPT-5.2-Codex，标志着AI在软件工程领域的实战能力迈入新纪元。该模型专为解决复杂、长周期的现实世界编码任务而设计，不仅在权威基准测试...

AI资讯 # AI新词 # GPT-5.2-Codex # 品牌产品词

2个月前

0270

基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍

基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍

研究机构 METR 最新发布的一项研究显示，被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现，在基准测试中...

AI资讯 # AI编程能力 # SWE-BenchVerified # 基准测试

1周前

0180