SWE-BenchVerified

共 2 篇文章

排序

发布更新浏览点赞

Mistral AI发布第二代开源编码模型:Devstral2性能超群，采用差异化许可策略

Mistral AI发布第二代开源编码模型:Devstral2性能超群，采用差异化许可策略

 Mistral AI 正式推出其第二代开源编码模型家族:Devstral2 和 Devstral Small2。此次发布的核心亮点是旗舰模型在性能上实现突破，同时该公司采用了针对不...

AI资讯 # Devstral2 # MistralAI # SWE-BenchVerified

1个月前

0290

基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍

基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍

研究机构 METR 最新发布的一项研究显示，被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现，在基准测试中...

AI资讯 # AI编程能力 # SWE-BenchVerified # 基准测试

1周前

0160