阿里通义推出新型强化学习方法 SAPO,让大语言模型更稳更强 在大语言模型(LLM)发展的浪潮中,阿里通义 Qwen 团队近日推出了一种创新的强化学习方法 ——Soft Adaptive Policy Optimization(SAPO)。这一方法的核心目标是解... AI资讯# AI新词# SoftAdaptivePolicyOptimization# 大语言模型 2个月前0200