OpenAI 推出 “忏悔” 机制 旨在揭示 AI 潜在不当行为 近日,OpenAI 正在测试一种新方法,旨在揭示模型的潜在问题,比如奖励黑客行为或忽视安全规则。这一新机制被称为 “忏悔”,其核心理念是训练模型在单独的报告中承认规则违反,即使原始回答存在欺骗性,仍然... AI资讯# OpenAI# 奖励黑客# 强化学习 1个月前0190