阿里通义推出全新强化学习框架EAPO

AI 资讯快报 • 2026-04-28 13:271次浏览

阿里通义实验室推出全新强化学习框架（Evidence-Augmented Policy Optimization），引入”证据奖励”机制，将监督从答案下沉到证据提取过程，解决大模型长文本推理中”搜对却答错”的幻觉问题。框架基于Qwen3-30B的模型在多个权威长文本基准测试中表现优异，反超120B参数的GPT-OSS和Claude-Sonnet-4等大模型。更多详情...