强化学习 - AI工具集

 知名 AI 辅助编程工具开发团队 Cursor 今日正式宣布推出其最新一代智能编码模型——Composer1.5。相比前代产品，新模型在推理深度、响应速度以及处理复杂长任务的能力上...

1个月前

0250

腾讯在 AI 人才版图上持续重仓。近日，清华大学博士、前新加坡 Sea AI Lab 高级研究科学家庞天宇正式加盟腾讯，出任混元多模态部首席研究科学家。他将重点负责强化学习技术的研究与突破，助力混...

2个月前

0200

近日，OpenAI 正在测试一种新方法，旨在揭示模型的潜在问题，比如奖励黑客行为或忽视安全规则。这一新机制被称为 “忏悔”，其核心理念是训练模型在单独的报告中承认规则违反，即使原始回答存在欺骗性，仍然...

1个月前

0190

  前谷歌 DeepMind 的首席科学家、曾在 AlphaGo 项目中发挥关键作用的席尔瓦（David Silver）日前正式辞职，并在伦敦创办了 AI 初创公司...

4周前

0170

在 AI 智能体（Agent）从实验室走向大规模应用的进程中，底层基建的支撑能力正面临前所未有的考验。近日，MiniMax与腾讯云宣布达成深度合作，并成功完成了一次 Agent 基建的重要实践。依...

1周前

0120

Google DeepMind 的核心开创性人物 David Silver 近日正式宣布离职。作为 AlphaGo、AlphaZero 以及 MuZero 等划时代项目的灵魂人物，他的离去不仅标志着 ...

2个月前

0110

圣诞节当天，知名边缘AI初创公司Liquid AI正式发布了其最新实验性模型LFM2-2.6B-Exp，这一仅有2.6B（26亿）参数的小型开源模型，在多项关键基准测试中表现出色，尤其在指令跟随能力上...

2个月前

070

 腾讯混元3D 团队昨日宣布，正式开源业界首个面向世界模型的强化学习（RL）后训练框架——WorldCompass。作为混元世界模型1.5的官方强化学习扩展模块，该框架旨在显著提升世...

1周前

060

3月4 日，蚂蚁集团联合清华大学发布开源强化学习训练框架 AReaL v1.0稳定版。该版本主打“Agent 一键接入 RL 训练”:不用改代码，兼容各类 Agen...

1周前

050