通义提升6月10日消息

来源:发表时间:2025-08-04 22:44:28

6月10日消息,通义提升通义实验室发布并开源了MaskSearch预训练框架,实验室让AI学会“主动搜索+多步推理”,训练性从而更准确、框架更智能地回答复杂问题。通义提升

6月10日消息,实验室通义实验室发布并开源了MaskSearch预训练框架,训练性让AI学会“主动搜索+多步推理”,框架从而更准确、通义提升更智能地回答复杂问题。实验室

据了解,训练性MaskSearch提出了一种全新的框架预训练任务——检索增强掩码预测(RAMP) ,让AI在大量“填空题”中学习如何调用搜索引擎、通义提升多步推理、实验室逐步还原缺失信息,训练性从而掌握通用的搜索与推理能力。还采用了两种训练策略,分别是监督微调(SFT)和强化学习(RL)。

通过构建由规划器、重写器、观察器 组成的多智能体系统,MaskSearch 能够自动生成结构清晰、逻辑完整的推理路径(Chain-of-Thought),并借助自进化蒸馏方法快速扩展数据集,为训练提供高质量样本。

采用了DAPO算法 ,结合格式奖励(保证输出结构正确)与回答奖励(确保内容准确),打造高效强化学习流程,进一步提升模型在复杂任务中的表现。

实验表明,即使是小模型(如Qwen2.5-1.5B),在经过MaskSearch预训练后,也能在多个开放域问答任务中取得显著提升。例如,在Bamboogle数据集中性能提升超过11.78% ,真正做到了“小模型也能挑战大模型”。

说明:所有图文均来自网络,版权归原作者所有,如果侵犯您的权益,请联系我们删除。

相关栏目:知识