当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek V3升级版发布:编程数学能力接近Claude 3.7

6个月前 (03-25)DeepSeek技术交流392

DeepSeek于24日夜间发布V3模型小版本升级,新版本DeepSeek-V3-0324在模型参数上达到685B,并采用MIT许可证,为用户带来全新体验。该版本重点提升了数学和编程能力,性能接近Claude 3.7 Sonnet,且对用户免费开放使用。

模型架构全面升级

DeepSeek-V3作为专家混合巨头模型,原始参数为671B,每个Token可激活370亿个参数。新版本DeepSeek-V3-0324的模型参数提升至685B,采用多头潜在注意力和DeepSeek MoE技术支持。知识截止日期从2023年12月延长至2024年7月,优化了Function call功能,解决了此前版本的函数调用问题。

编程能力显著提升

在前端编程领域,DeepSeek V3-0324展现出惊人实力。测试显示,其能在3分钟内完成750行电商网站代码,包含动态产品卡片悬停效果和手机端响应式布局等功能。自2024年6月以来,业界普遍认为仅Claude 3.5能够生成优质前端代码,而此次DeepSeek的升级版本终于为Anthropic带来了强劲竞争对手。在数学能力方面,V3-0324也表现出色,成功解答了此前大模型普遍解答错误的数学题目。

开源协议引领行业变革

DeepSeek V3-0324采用MIT许可证,允许用户出于任何目的使用、修改和分发模型,包括商业用途。这一决策获得业内广泛关注,Perplexity CEO阿拉文德认为,DeepSeek的开源策略具有革命性意义。该模型不仅能在AWS和Azure上以极低成本部署,仅需支付服务器费用,还为创业企业提供了可负担的AI解决方案。这种开源模式可能影响未来AI巨头的融资格局,推动行业向更开放、更透明的方向发展。

本文源自:金融界


“DeepSeek V3升级版发布:编程数学能力接近Claude 3.7” 的相关文章

中国电信、中国移动、中国联通三大运营商宣布接入DeepSeek,他们究竟要干嘛?

中国电信、中国移动、中国联通三大运营商宣布接入DeepSeek,他们究竟要干嘛?

三大运营商开始在大模型领域角力,究竟哪家实力更强一些?2025年伊始,中国电信、中国移动、中国联通三大运营商相继宣布全面接入DeepSeek,在通信与AI融合领域激起千层浪。银河证券研报指出,三大运营...

DeepSeek-R1“思维学”;苹果:原生多模态模型的Scaling Laws|今日热门论文

DeepSeek-R1“思维学”;苹果:原生多模态模型的Scaling Laws|今日热门论文

速览热门论文1.DeepSeek-R1“思维学”2.苹果:原生多模态模型的 Scaling Laws3.7B 模型超越 o1!视觉推理新突破:所需样本少,还能自提升4.MIT 团队提出“自我引导”LM...

DeepSeek激活“芯”机遇

DeepSeek激活“芯”机遇

本土AI生态小伙伴正在朝着DeepSeek“集结”时,海外AI芯片商也快速行动起来。位于美国加州的AI芯片厂商 Cerebras已经接入了DeepSeek-R1 大语言模型,其CEO 在接受采访时表示...

西藏大学、拉萨高新区等“尝鲜”DeepSeek

西藏大学、拉萨高新区等“尝鲜”DeepSeek

中新网拉萨5月27日电 (记者 江飞波)西藏大学近日推出“藏大智言”DeepSeek(深度求索)平台,人工智能教学服务将延伸至雪域高原。中新网记者获悉,除西藏大学外,目前西藏自治区昌都市政务云已完成D...

梁文锋署名DeepSeek新论文:公开V3大模型降本方法

梁文锋署名DeepSeek新论文:公开V3大模型降本方法

还有对下一代AI的期待梁文锋亲自参与的DeepSeek最新论文,来了!这一次,团队把DeepSeek-V3在训练和推理过程中,如何解决“硬件瓶颈”的方法公布了出来。具体而言,DeepSeek-V3之所...

从DeepSeek-R1看AI国产化的全球突围

从DeepSeek-R1看AI国产化的全球突围

近期,中国初创公司深度求索(DeepSeek)推出的大模型DeepSeek-R1引发全球关注。这款完全基于国产技术研发的AI产品,不仅在自然语言处理、多模态交互等领域展现出不逊于国际顶尖模型的性能,更...