OpenAI发布GPT-5.2-Codex:最强智能体编程模型登场,可自主完成漏洞挖掘与PR提交 OpenAI今日正式推出其迄今最先进的智能体编程模型——GPT-5.2-Codex,标志着AI在软件工程领域的实战能力迈入新纪元。该模型专为解决复杂、长周期的现实世界编码任务而设计,不仅在权威基准测试... AI资讯# AI新词# GPT-5.2-Codex# 品牌产品词 2个月前0270
基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍 研究机构 METR 最新发布的一项研究显示,被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现,在基准测试中... AI资讯# AI编程能力# SWE-BenchVerified# 基准测试 1周前0180