当前位置:首页 > Deepseek最新资讯 > 正文内容

基于华为昇腾训练 性能不输英伟达!自家模型爆料:DeepSeek-R2本月要发布

8小时前Deepseek最新资讯17

  快科技8月12日消息,ChatGPT-5已经发布,那么国产大模型DeepSeek大版本更新也就不远了。

  从网友向DeepSeek提出的问题看,该模型给出的答案是,DeepSeek-R2预计将在2025年8月15日至8月30日之间发布。

  在这样的背景下,国产算力链多家公司股价出现了大涨,比如寒武纪直接今天20cm涨停,股价创历史新高,市值突破3550亿元。

  按照之前的说法,DeepSeek-R2大模型将会采用一种更先进的混合专家模型(MoE),其结合了更加智能的门控网络层(Gating Network)以优化高负载推理任务的性能。

  有分析师预计,DeepSeek-R2的定价可能显著低于OpenAI同类产品,预示着其可能颠覆现有AI服务的定价模式。

  此外,还有相关消息显示,DeepSeek-R2预计比GPT-4成本下降97%;并且是在昇腾卡上做的训练,主打一个全方位全产业链的自主可控。

  据相关人士透露的情况,DeepSeek-R2的总参数量可能会达到1.2万亿,比DeepSeek-R1的6710亿参数增加大约一倍。

  据华为实验室统计,这个性能相当于英伟达上一代A100训练集群的91%左右deepseek。至于这些是不是真实的,还有待观察,但看起来确实更强大、更自主了。原文出处:基于华为昇腾训练 性能不输英伟达!自家模型爆料:DeepSeek-R2本月要发布,感谢原作者,侵权必删!

标签: deepseek

“基于华为昇腾训练 性能不输英伟达!自家模型爆料:DeepSeek-R2本月要发布” 的相关文章

饼香茶韵共富路

饼香茶韵共富路

  当清晨的炊烟漫过浙江省新昌县外婆坑村的古瓦木楼,“何溪女副食店”的店主何溪女正将玉米面团在圆板上擀开。擀面杖滚动的声响伴着玉米饼在电饼铛中发出的滋滋声,仿佛二十六年的光阴在缓缓流淌,而...

看完妈妈和DeepSeek的聊天记录,我哭了

看完妈妈和DeepSeek的聊天记录,我哭了

  它不再仅仅是工具,更开始扮演一个微妙的“第三方”角色——在因观念、代际和沟通方式差异而撕裂的家庭关系中,充当起“军师”或“翻译官”。   蔡考和程君,这两位年轻女性的...

重磅的要来了!斯基拉:利物浦准备1.2亿-1.25亿向纽卡报价伊萨克

重磅的要来了!斯基拉:利物浦准备1.2亿-1.25亿向纽卡报价伊萨克

  斯基拉表示,按照自己昨天的独家消息,伊萨克和利物浦已经达成个人条款。(昨日斯基拉报道利物浦已与纽卡前锋伊萨克就个人条款达成原则性协议,合同期限到2030年,还有延长至2031年的选项,...

最新版《清单计价标准》解读与Deepseek新技术在造价全流程应用实务

最新版《清单计价标准》解读与Deepseek新技术在造价全流程应用实务

  2024年12月30日住建部正式发布《建设工程工程量清单计价标准》GB/T50500-2024,新版《清单计价标准》的出台将为工程造价精细化管理带来一场新的革命,同时也给各单位相关管理...

刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论

刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论

  ACL 是计算语言学和自然语言处理领域的顶级国际会议,由国际计算语言学协会组织,每年举办一次。一直以来,ACL 在 NLP 领域的学术影响力都位列第一,它也是 CCF-A 类推荐会议。...

DeepSeek母公司总监被查!套取上亿佣金

DeepSeek母公司总监被查!套取上亿佣金

  幻方量化,是今年在科技圈惊艳四座的DeepSeek母公司,它们的创始人都是梁文锋。成立仅十年,其便因市场总监的行为卷入亿元级风暴。   据报道,李橙曾任职于招商证券,...