当前位置:首页 > Deepseek最新资讯 > 正文内容

微软开源3大突破AI Agent模型,仅140亿参数超越DeepSeek-R1

15小时前Deepseek最新资讯37

  等领先模型,通过延长推理链,就是让大模型思考时间更长大幅提升了性能。但这种方法在面对一些难题时存在局限性,因为容易在中间步骤出现细微错误,或者需要创造性地转变推理方向。在这种情况下,模型依赖于内部自我反思来检测和纠正错误往往效果不佳。

  为了解决该难题,微软决定转向智能体强化学习并实现三大技术突破。在这种学习范式下,模型与特定的工具环境进行交互,并根据从环境中获得的反馈来调整推理过程。选择合适的工具和环境至关重要,一个有效的环境必须能够部署,并且提供准确、可验证的信号,引导模型走向更强的推理路径。

  首先是在训练基础设施方面实现了重大突破。智能体强化学习需要高效的工具环境,可传统的本地Python解释器在面对大规模训练时问题重重。例如,模型训练就像是一个繁忙的工厂,需要大量的原材料(代码执行请求)供应。以往的本地Python解释器就如同一个低效的仓库管理员,面对工厂瞬间涌入的数万份原材料需求,不仅处理速度慢,还可能因为各种问题,让整个工厂陷入混乱,甚至威胁到整个生产系统的安全。

  微软打造的全新基础设施则截然不同。其中的隔离式高吞吐代码执行服务,就像是一个超级高效的大型物流中心。它部署在由64台AMDMI300XGPU组成的强大硬件基地上,采用“主节点-工作节点”的分布式架构。

  32个发送工作器,负责接收来自工厂的原材料需求,然后将最多64个工具调用打包成一个批次,快速分配任务,就像调度室快速安排货物配送路线一样,利用超时机制保证配送效率。而工作节点就像是一个个忙碌的仓库区域,每个工作节点上运行着轻量级任务调度器与1024个执行工作器,它们能迅速将任务分配到空闲的执行单元,实现负载均衡,就如同仓库工作人员迅速将货物搬运到空闲的存储区域。

  实验数据显示,这个物流中心非常强大,能稳定支撑每训练步骤4.5万次并发工具调用,平均执行延迟仅0.3秒,而且通过巧妙的隔离设计,完全避免了代码执行干扰主训练流程,保障了工厂的稳定生产。

  还有动态负载均衡滚出调度器,它的出现解决了传统调度方式的一大难题。传统的静态分配方式,就像是不管每个仓库区域(GPU)的实际存储能力,都平均分配货物,这样会导致大量仓库空间闲置。

  GPU的KV缓存剩余容量,根据这个来动态分配任务。当有新的任务进来时,它会估算每个仓库区域能安全存放的最大货物量,然后异步分发工具调用,就像及时将货物送到合适的仓库区域。

  当某个GPU完成当前任务释放缓存后,它又能马上分配新任务,让仓库的空间利用率大大提高。经过测试,它将GPU空闲时间降低了60%以上,单批次滚出效率提升了45%,大大缩短了整个生产周期。

  在智能体强化学习中,环境噪声就像学习过程中的“捣乱分子”。例如,老师在教学生做数学题,给了学生一个不太靠谱的计算器。学生不仅要努力解题,还要应对这个捣乱的计算器给出的错误反馈,这就导致学生花费大量时间去修正计算器的错误,而不是真正推进解题思路。

  并且传统的基于最终结果的奖励机制,就像只要学生最后答案对了,不管中间用计算器过程多混乱,都给满分,这会让学生养成不好的解题习惯,认为错误的中间过程也没关系。

  微软在GRPO算法基础上,提出了融合Resample-on-Correct(RoC)滚出策略的GRPO-RoC算法。GRPO原本是适用于推理任务的强化学习算法,rStar2-Agent对它进行了三项关键调整。移除KL散度惩罚项,就像是给学生松绑,让他们能大胆尝试新的解题方法,不再被旧规则束缚,去探索工具辅助的新推理模式;

  Clip-Higher策略,提升重要性采样比率上界,这就像鼓励学生多去尝试那些虽然不常见但可能很关键的解题思路,例如,在解题时想到用特殊方法去验证答案;取消熵损失项,防止训练像脱缰的野马一样失控,避免了训练过程中可能出现的混乱情况。

  RoC采用“过采样-筛选-下采样”的不对称采样机制,就像是对学生的解题过程进行严格筛选。为每个问题生成很多解答尝试,然后进行筛选。对于失败的尝试,就像保留一些错误案例给学生看,让他们知道哪些做法是不对的;

  对于成功的尝试,就像老师严格检查学生的解题过程,只保留那些工具调用错误最少、代码简洁、推理清晰的高质量解答。经过这个策略筛选,正奖励轨迹中的工具错误率从15%降至5%以下,同时推理响应长度缩短了30%,让模型的推理过程更加高效、准确。

  最后是训练流程的创新。在大模型强化学习领域,算力成本一直是个大难题,就像建造一座超级大楼,需要耗费巨额资金。很多模型,比如DeepSeek-R1、MiMo等,它们的训练就像建造非常复杂的大楼,需要数千甚至数万步的漫长过程,而且还依赖大规模推理微调预热。

  rStar2-Agent则另辟蹊径,设计了“非推理微调+多阶段强化学习”的高效训练流程。在非推理微调阶段,它不像传统模型那样一上来就在强化学习前进行大量“推理导向微调”,而是专注于培养模型的三项基础能力,就像教孩子先学会走路、说话和基本的生活技能。它采用Tulu3数据集的3万条指令示例,教模型学会听从指令deepseek,就像教孩子听老师的话;

  整合16.5万条函数调用数据,将工具调用格式统一为结构化JSON格式,就像给孩子的玩具都规定好摆放方式;引入LLaMA-Nemontron数据集的2.7万条对话数据,提升模型的对话能力,就像锻炼孩子的交流能力。经过这个阶段微调,模型在MATH-500基准测试中虽然整体得分可能不如基础模型,但工具调用准确率大幅提升,指令遵循达标率也不错,为后续强化学习打下了良好基础。

  多阶段强化学习分为三个阶段:第一阶段,在8Ktoken长度限制下,使用4.2万条高质量数学问题训练,这就像给孩子一些难度适中的数学题,让他们在有限的条件下锻炼解题能力。模型在这个阶段建立起“工具辅助推理”的基本模式,在AIME24、AIME25等测试中的准确率显著提升。

  当第一阶段末期,就像孩子在这个难度关卡基本熟练了,滚出截断率稳定在10%,进入第二阶段,将最大响应长度提升至12K token,给孩子更复杂的题目,进一步释放模型的复杂推理能力,相关测试准确率继续上升。

  1.73万条高难度问题中进行训练,就像给孩子最难的奥数题,模型在AIME24准确率突破80%,AIME25达69.8%,完成性能登顶。整个训练流程仅用64台MI300XGPU,在1周内完成510步强化学习迭代就达到性能峰值,大大降低了算力成本。(转载自AIGC开放社区)原文出处:微软开源3大突破AI Agent模型,仅140亿参数超越DeepSeek-R1,感谢原作者,侵权必删!

标签: deepseek

“微软开源3大突破AI Agent模型,仅140亿参数超越DeepSeek-R1” 的相关文章

[JR热议]电竞小说角色“简茸”被指融梗,作者声称无原型不知道GSL

[JR热议]电竞小说角色“简茸”被指融梗,作者声称无原型不知道GSL

  最近,电竞题材小说《我行让我上》作者酱子贝声称小说角色“无原型”,却遭到大众质疑,认为主角“简茸”融梗知名电竞选手Uzi,还融合了选手刘青松(Crisp)的特点,直接就是引发wb各家粉...

数智津门:伙伴+华为赋能下的新质生产力全球样本

数智津门:伙伴+华为赋能下的新质生产力全球样本

  作为“九河下梢”与“河海要冲”的天津,自古以来就是贯通南北商贸的关键节点。当数字化浪潮席卷全球,这座城市再次展现出锐意进取、敢为人先的开拓精神。   前不久的“华为中...

备件管理准确率98%!AI如何重塑高效售后服务?

备件管理准确率98%!AI如何重塑高效售后服务?

  晚上9点半,广州,某知名新茶饮品牌门店内,店长小林接到了平云小匠工程师的电话。确认其在店及报修情况后,工程师半小时内携备件到达门店,根据标准作业程序操作,完成签到、检测、维修、确认核销...

国信证券-通信行业周报2025年第34周:DeepSeek V3.1发布,工信部

国信证券-通信行业周报2025年第34周:DeepSeek V3.1发布,工信部

  行业要闻追踪:DeepSeek V3.1发布,国产GPU芯片等加速突破。(1)8月21日,DeepSeek发布DeepSeek-V3.1,基于下一代国产芯片训练。DeepSeekV3....

DeepSeek被曝开发AI智能体模型:能自主完成多步工作

DeepSeek被曝开发AI智能体模型:能自主完成多步工作

  DeepSeek正在研发一款更为先进的AI智能体模型,希望在与OpenAI等竞争对手在这一新兴技术领域展开竞争。   据匿名人士透露,DeepSeek正在开发的模型只...

【IT之家开箱】HMD 3210 巴萨版功能机图赏:梦回 1999,内置 Dee

【IT之家开箱】HMD 3210 巴萨版功能机图赏:梦回 1999,内置 Dee

  IT之家 8 月 5 日消息,本月初,HMD Global 旗下巴塞罗那足球队联名版 3210 功能手机正式开启首销,可选巴萨经典红蓝双色,首发价 429 元deepseek。...