阿里通义Qwen

共 1 篇文章

排序

发布更新浏览点赞

阿里通义推出新型强化学习方法 SAPO，让大语言模型更稳更强

阿里通义推出新型强化学习方法 SAPO，让大语言模型更稳更强

在大语言模型（LLM）发展的浪潮中，阿里通义 Qwen 团队近日推出了一种创新的强化学习方法 ——Soft Adaptive Policy Optimization(SAPO)。这一方法的核心目标是解...

AI资讯 # AI新词 # SoftAdaptivePolicyOptimization # 大语言模型

2个月前

0200