阿里通义推出全新强化学习框架EAPO

AI 资讯快报  • 2026-04-28 13:271次浏览
阿里通义实验室推出全新强化学习框架(Evidence-Augmented Policy Optimization),引入”证据奖励”机制,将监督从答案下沉到证据提取过程,解决大模型长文本推理中”搜对却答错”的幻觉问题。框架基于Qwen3-30B的模型在多个权威长文本基准测试中表现优异,反超120B参数的GPT-OSS和Claude-Sonnet-4等大模型。 更多详情...