OpenClaw能“边用边训”了:智能体强化学习训练框架AReaL v1.0稳定版发布 3月4 日,蚂蚁集团联合清华大学发布开源强化学习训练框架 AReaL v1.0稳定版。该版本主打“Agent 一键接入 RL 训练”:不用改代码,兼容各类 Agen... AI资讯# Agent# AReaL# 强化学习 1周前040
百万级智能体“大练兵”!MiniMax 联手腾讯云:RL 沙箱实现全量平稳运行 在 AI 智能体(Agent)从实验室走向大规模应用的进程中,底层基建的支撑能力正面临前所未有的考验。近日,MiniMax与 腾讯云 宣布达成深度合作,并成功完成了一次 Agent 基建的重要实践。依... AI资讯# Agent# AI智能体# 强化学习 1周前0110
世界模型迈入精细调优时代:腾讯开源强化学习后训练框架 WorldCompass 腾讯混元3D 团队昨日宣布,正式开源业界首个面向世界模型的强化学习(RL)后训练框架——WorldCompass。作为混元世界模型1.5的官方强化学习扩展模块,该框架旨在显著提升世... AI资讯# WorldCompass# 世界模型# 强化学习 1周前040
前 DeepMind 首席科学家辞职创业,瞄准超级智能新篇章! 前谷歌 DeepMind 的首席科学家、曾在 AlphaGo 项目中发挥关键作用的席尔瓦(David Silver)日前正式辞职,并在伦敦创办了 AI 初创公司... AI资讯# AI新词# DeepMind# IneffableIntelligence 4周前0160
Cursor 发布 Composer1.5:强化学习规模提升20倍,性能实现跨越式增长 知名 AI 辅助编程工具开发团队 Cursor 今日正式宣布推出其最新一代智能编码模型——Composer1.5。相比前代产品,新模型在推理深度、响应速度以及处理复杂长任务的能力上... AI资讯# AI新词# Composer1.5# Cursor 1个月前0230
OpenAI 推出 “忏悔” 机制 旨在揭示 AI 潜在不当行为 近日,OpenAI 正在测试一种新方法,旨在揭示模型的潜在问题,比如奖励黑客行为或忽视安全规则。这一新机制被称为 “忏悔”,其核心理念是训练模型在单独的报告中承认规则违反,即使原始回答存在欺骗性,仍然... AI资讯# OpenAI# 奖励黑客# 强化学习 1个月前0190
2.6B参数碾压百亿级巨兽!Liquid AI最新实验性模型LFM2-2.6B-Exp发布 圣诞节当天,知名边缘AI初创公司Liquid AI正式发布了其最新实验性模型LFM2-2.6B-Exp,这一仅有2.6B(26亿)参数的小型开源模型,在多项关键基准测试中表现出色,尤其在指令跟随能力上... AI资讯# AI新词# LFM2-2.6B-Exp# LiquidAI 1个月前060
DeepMind 功勋老兵 David Silver 离职创业:押注强化学习,挑战大模型局限性 Google DeepMind 的核心开创性人物 David Silver 近日正式宣布离职。作为 AlphaGo、AlphaZero 以及 MuZero 等划时代项目的灵魂人物,他的离去不仅标志着 ... AI资讯# AI新词# DeepMind# IneffableIntelligence 1个月前0100
腾讯混元再迎大将:顶级科学家庞天宇加盟,领衔多模态强化学习 腾讯在 AI 人才版图上持续重仓。 近日,清华大学博士、前新加坡 Sea AI Lab 高级研究科学家庞天宇正式加盟腾讯,出任混元多模态部首席研究科学家。 他将重点负责强化学习技术的研究与突破,助力混... AI资讯# AI人才# 强化学习# 混元大模型 1个月前0190