当前位置：首页 > DeepSeek技术交流 > 正文内容

思想者 | 金耀辉：DeepSeek破局，中国式创新如何改变AI未来？

3个月前 (03-30)DeepSeek技术交流245

【编者按】今年年初DeepSeek的出圈，让人看到国产大模型的巨大潜力。技术正以惊人的速度改变着人们的生活和工作方式，而如何认知技术正在成为互联网时代的“必修课”。在上海交通大学电信学院长聘教授金耀辉看来，DeepSeek的实践深刻地揭示了，AI的发展不应是算力的盲目扩张和野蛮生长，而应该是系统创新的智慧结晶。中国的创新者们以人才协同突破瓶颈，用工程智慧化解约束，借生态开放赢得未来。这种既仰望星空又脚踏实地的创新哲学，不仅重塑了技术发展的路径，更在智能时代刻下了东方智慧的独特印记。以下是他在中欧国际工商学院的演讲。

今年春节前后，DeepSeek横空出世，迅速引发全球关注。很多人都在问：这种创新为什么能打破西方的技术垄断？简单来说，它做到了“花小钱办大事”——性能比肩美国最顶尖的AI模型，但用的资源却少得多。不过，它的意义远不止省钱。今天，我想通过DeepSeek的故事，谈谈中国式创新如何为AI的未来带来新可能。

破局时刻：重新定义AI的方向

过去几年，全球AI发展有点像“拼硬件”的比赛。一些公司和机构认为，只要砸钱买更多、更强的设备，就能胜出。比如，埃隆·马斯克的xAI公司用20万块英伟达显卡来训练Grok3模型。与此同时，为了遏制中国AI发展，美国等西方国家出台各种政策，把多家中国芯片公司列入“黑名单”。

就在这种情况下，DeepSeek像一缕“东方晨光”冒了出来，让全世界眼前一亮。这家企业用了不到行业平均十分之一的训练成本，就在数学推理、写代码等难题上达到了世界顶级水平，有些方面甚至超过了OpenAI。《自然》杂志连发三篇专题报道，称它为 “东方智慧与前沿科技完美融合”。而在这耀眼成绩的背后，是它重新思考了AI发展的路子。

西方主导的AI模式有个问题：太“烧钱”了。比如，GPT-4训练一次的能耗，够700户美国家庭用一年。行业大佬们为了提升AI能力，动不动就用几万块顶级芯片。这种“堆砌式”打法，像搭建沙堡，看着高大，但不稳，还把技术门槛拉得很高，让很多国家只能望而却步。

DeepSeek却走了另一条路。它借鉴了中国航天的智慧——天宫空间站没靠超大硬件，而是用模块化设计、分步迭代，在有限资源下建起了“太空家园”。这种方式并没有一味地追求硬件的大规模堆砌，而是采用了分阶段迭代的工程思维，成功突破了资源约束。当国际同行们还在执着于“重型火箭”式的大模型竞赛时，中国的创新者们另辟蹊径，选择了一条更加精密的道路。DeepSeek通过技术、组织和生态的协同创新，实现了在AI领域“有限资源最大化”的系统工程奇迹。

回顾中国载人航天的发展历程，神舟飞船从无人到载人，仅仅用了短短四年时间。这一成就的取得，靠的可不是简单的硬件堆砌，而是“三步走”战略下的技术积累：先突破天地往返，再实现出舱活动，最终完成交会对接。每一步都走得坚实有力，稳扎稳打。

DeepSeek同样采用了这种分阶段突破、螺旋式上升的路径：2023年发布基础模型奠定框架，2024年迭代出智能任务分配系统，2025年实现强化推理。这种发展模式，正是中国式系统工程的精髓所在。它让我们明白，在科技发展的道路上，并非只有一座“暴力计算”的独木桥，通过合理的规划和创新，我们同样可以在有限的资源条件下，实现巨大的突破。

工程智慧：钱学森思想的当代实践

中国工程智慧源远流长，其传承强调“整体协同、动态平衡”，核心在于将复杂系统视为一个有机的整体。这一思想在DeepSeek的发展和迭代过程中得到了淋漓尽致的体现。在同等算力条件下，DeepSeek实现了资源使用效率提升17倍的重大突破，这一成绩的背后，正是中国工程智慧的生动实践。

DeepSeek成立不到半年，就在2023年底发布了代码和纯语言模型。此后，几乎每半年就有一次大的升级。以2024年5月发布的V2版本为例，其中包含两大技术引擎，展现出了卓越的创新能力。第一个引擎是智能筛选器，它就像一位经验丰富的编辑，能够自动识别关键信息。在处理长文本时，能够快速抓取文章重点，大幅压缩内存消耗，压缩幅度可以达到93%之多。这一功能在如今这个信息爆炸的时代，显得尤为重要。我们每天都会接触到海量的信息，如何快速准确地筛选出有用的部分，是一个亟待解决的问题。另一个引擎是改进的专家智囊团模式。模型内置了数百个专业模块，每次运算时仅调用相关的“专家团队”，这就大大降低了算力消耗。

在攻克复杂推理难题方面，DeepSeek同样实现了技术创新。不同于传统AI“填鸭式训练”，DeepSeek R1仿效顶尖少年班培养模式，分四步实现能力跃升：先通过“书法课”规范表达格式（冷启动SFT），再以“奥赛集训”强化逻辑推理（推理RL），接着开展“跨学科通识课”平衡能力（通用SFT），最终在“社会实践”中打磨安全价值观（全场景RL）。这种“先专精后通才”的路径，既避免早期训练混乱，又实现稳定进化。结合“班级竞争”（GPRO）机制——让AI生成多个答案互相比学，通过内部优选替代机械评分——形成双重创新，前者解决“学什么”，后者优化“怎么学”，共同突破传统AI依赖标准答案、易受评分偏差限制的瓶颈，以更低成本培育出兼具专业深度与创造力的智能助手。

人才培育：智能时代的组织重构

在全球AI人才争夺战打得如火如荼的当下，DeepSeek没有选择通过高薪挖角或海外招聘这样的常规手段来扩充自己的人才队伍。相反，它完成了一场静默却意义深远的组织实验。

DeepSeek的团队规模大约在150人左右，平均年龄仅28岁。团队成员大多毕业于国内顶尖名校，近半数是刚毕业没有经验的年轻人。但就是这样一支看似年轻稚嫩的队伍，却在AI领域创造出了惊人的成绩。他们坚持选人的标准一直是 “热爱和好奇心”，正是这种独特的选人理念，吸引了不同学科背景的“非典型人才”汇聚在一起：有放弃高薪投身科研的“理想主义者”，他们怀揣着对科学的热爱和追求，不为金钱所动；有在开源社区默默耕耘多年的“技术隐士”，他们积累了丰富的技术经验，低调而又实力非凡；还有物理专业的新人实习生，他们以独特的思维方式，颠覆性地重构训练框架。这些不同背景的人才相互碰撞，催生了跨界创新的火花。

为了给人才提供更好的成长环境，DeepSeek对组织架构进行了重塑。它实行“无固定团队、无汇报关系、无年度计划”的扁平架构，取消了KPI考核与层级审批。通过资源开放和信用自治，实现了高效协同。在这个组织里，员工可以随时调用算力资源组建临时团队，项目进展全透明同步，战略按周迭代而非年度规划。这种打破传统金字塔架构的模式，形成了一个资源全开放、角色无边界、创新自生长的动态网络。算法工程师可以跨部门协作，新人也可以直接发起技术讨论，创意项目能够通过“资源磁铁效应”自然聚合资源。

更深层次的变革在于人才价值坐标系的重设。在价值创造维度，赋予员工技术路线自主决策权与资源调配权，以“轻管理”模式激发自主成长，让人才在攻克大模型等尖端难题中实现认知跃迁。在价值评价维度，将 “解决世界级难题”设为基准坐标系，通过设置AI领域最硬核的技术关卡，形成了顶尖人才聚集的 “挑战—成就” 引力场。在价值分配维度，创新“创新税”机制重构成本观念，将试错成本转化为战略投资，建立“过程价值优先”的容错文化。这种三维体系彻底颠覆了传统雇佣关系，将人才定位为技术共同体的价值共创者。通过自主权赋能、高维挑战牵引、容错空间保障的协同机制，实现了组织目标与个体价值主张的深度耦合，最终形成了自我强化的创新生态系统。

生态构建：数字时代的治水智慧

DeepSeek的开放战略，充满了“李冰治水”的东方智慧。在如今这个数字时代，技术的发展日新月异，封闭的技术体系就如同筑起的堤坝，虽然在短期内可能起到一定的保护作用，但从长远来看，却难以阻挡技术发展的洪流。正如DeepSeek的创始人所说：“在颠覆性技术面前，闭源形成的护城河是短暂的。即使像OpenAI这样的巨头选择闭源，也无法阻止被别人赶超。”

DeepSeek通过全面的开源策略，构建起了如同“数字都江堰”般的生态体系。它将核心模型以非常宽松友好的MIT协议开源，就如同都江堰的“鱼嘴”工程，承担起基础能力供给的重任。在国内，众多厂商积极与DeepSeek合作，构建了涵盖芯片适配、算力支持、手机接入、垂直应用和解决方案等全方位的合作生态。已经有超过15家央国企、近百家上市公司与DeepSeek携手合作，合作领域覆盖通信、能源、金融、汽车、医疗、科技等诸多行业。在国际上，科技巨头AWS、Azure 等云平台也主动接入，国外几个当红的AI产品迅速集成DeepSeek，如信息搜索和问答助手Perplexity和代码编辑器/开发工具Cursor。

在核心模型的基础上，DeepSeek构建了“飞沙堰”式的微调体系，助力中小企业实现低成本阶梯式AI赋能。中小企业在发展过程中，往往面临着资金和技术实力不足的问题。而DeepSeek的这种微调体系，让企业可以借助价格非常低廉的接口调用服务，实现与现有业务系统的无缝对接。这种“即插即用”模式非常便捷，甚至无需算法团队，企业就可以在48小时内完成智能客服、文档解析等场景部署，与传统方案相比，节省了90%的初期投入。针对行业深度应用需求，DeepSeek还采用“数据蒸馏 + 领域迁移”技术组合来破解中小企业数据储备不足的难题。通过知识蒸馏算法，企业仅需提供千量级的行业文档样本，即可生成适配特定领域的增强模型，这种“小样本微调”方案可以将训练成本压缩至传统方法的 1/5。

DeepSeek的开发者社区则有如宝瓶口，引导着创新力量灌溉应用生态。在Github开源平台的官方 DeepSeek实用集成项目中，近百款应用如繁星般闪耀，涵盖智能体开发、知识库管理、翻译、代码辅助、字幕生成等。此外，DeepSeek允许全球研究人员研究、适应和扩展其算法，推动了AI技术的快速传播和创新。全球的技术社区掀起了“完全开源复现”DeepSeek R1的热潮。在R1推出一个多月的时间里，已经有11个开源项目，其中知名AI公司 Huggingface发起的Open R1项目，在Github平台上已经收获了超过2万个点赞。

对于大学和科研机构来说，如何利用AI技术在教学、科研和管理方面提质增效是一个重要课题。以上海交通大学为例，联合华为公司推出了国内高校首个全国产、全系列、满血版的本地部署的DeepSeek模型。在教学方面，升级了高等数学、概率统计、线性代数等课程的数学推理AI学习工具，不仅回答准确率更高，还可以给出解题思路指导和引导式问题，锻炼学生的分析和推导能力，同时还发布了在教育教学中使用 AI 的规范。在科研方面，升级白玉兰科学大模型底座，结合多种微调技术，在化学合成任务方面取得了行业领先的指标。结合具身实验机器人和智能化功能岛等构建了新型无人实验室，实现了从科学探索、方案优化、实验操作到精准分析的完全自主操控，极大地提高了科研效率。

DeepSeek的实践深刻地揭示了，AI的发展不应是算力的盲目扩张和野蛮生长，而应该是系统创新的智慧结晶。中国的创新者们以人才协同突破瓶颈，用工程智慧化解约束，借生态开放赢得未来。这种既仰望星空又脚踏实地的创新哲学，不仅重塑了技术发展的路径，更在智能时代刻下了东方智慧的独特印记。

DeepSeek火了以后，很多单位积极部署本地版本，但是应用目前还比较落后，基本还只停留在简单知识问答层面，对于安全风险控制更是几乎没有。事实上，在技术革命历程中，教育一直在不断重塑：1.0蒸汽革命（1760-1900），以工厂需求为导向，普及读写算和机械技能；2.0电气革命（1900-1970），学科专业化与标准化培养兴起；3.0信息革命（1970-2010），重视数字工具素养和网络化学习生态；4.0智能革命（2010至今），强调人机协同教育、元学习指导和动态能力评估。因此，未来还需要通过教育，不断加强相关研究，更安全、更高效地应用DeepSeek。

对于任何一个大语言模型来说，其生命力在于能否不断迭代并实现更多现实场景应用。事实上，我在准备今天的讲稿提纲时，也用到了DeepSeek。好的技术归根到底是为人服务的。DeepSeek的破局为我们在人工智能领域的发展提供了宝贵的经验和启示，其中有偶然也有必然。它让我们相信，在创新的道路上，只要我们坚持探索，勇于实践，就一定能够创造出更加辉煌的成就。