斯坦福团队提出RAGEN-2,用互信息正则化器解决RL智能体行为空洞问题

ME News 消息,4 月 9 日(UTC+8),近日,一项名为RAGEN-2的研究指出,通过强化学习训练的智能体虽然看起来行为多样,但实际上只是在重复模板,导致高熵但近乎零的互信息,即模型学会了多种方式来说空话。为解决这一问题,研究者提出了一种互信息感知的正则化器。该研究由@wzenus、@ManlingLi_、@YejinChoinka和Fei-Fei Li共同完成。(来源:InFoQ)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论