当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

3个月前 (02-26)DeepSeek技术交流208

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

“DeepSeek们”爆改短剧,15天完成100集

“DeepSeek们”爆改短剧,15天完成100集

文 | 锌刻度,作者 | 李觐麟当周鸿祎下场演短剧《红衣大叔用AI带我穿越》,为自家的纳米AI站台;当AI动漫短剧《我靠嘴贱登上修真巅峰》开播即引发热潮,单部剧当期收入超过30万元;当央视频、博纳影业...

24B模型编程超DeepSeek全家桶,32G内存苹果电脑就能跑,专门针对真实GitHub Issue训练

24B模型编程超DeepSeek全家桶,32G内存苹果电脑就能跑,专门针对真实GitHub Issue训练

Mistral沉默好久,果然在憋大招。刚刚发布最新开源编程模型Devstral,在软件工程任务上一举超过DeepSeek全家桶和Qwen3 235B。并且参数只有24B,可以在单卡RTX4090甚至3...

DeepSeek详细介绍DeepSeek在医疗领域有哪些重要应用场景?

DeepSeek详细介绍DeepSeek在医疗领域有哪些重要应用场景?

Thinking<think>好,我现在需要详细地介绍DeepSeek在医疗领域中的重要应用场景。首先,我应该回顾一下之前关于教育领域中使用的应用,然后逐步扩展到医疗领域。 在之前的...

新华网:可提供基于Deepseek模型的训练推理服务

新华网:可提供基于Deepseek模型的训练推理服务

金融界3月26日消息,有投资者在互动平台向新华网提问:Deepseek释放了算力需求,贵公司算力情况如何?公司回答表示:新华AIGC应用使能平台的高弹性算力包产品,可以为客户提供低成本普惠的算力资源,...

争先恐后接入DeepSeek的国产手机,它们的自研大模型怎么办?

争先恐后接入DeepSeek的国产手机,它们的自研大模型怎么办?

只有小米手机、苹果国行还没宣布外接大模型计划。蛇年春节以来,一场名为DeepSeek的大模型“飓风”开始席卷科技界,手机公司堪称其中反映最迅速的行业之一。 2月10日,中兴通讯终端事业部总裁...

DeepSeek上车 能撼动图商的专业主义吗|时空智能新十年

DeepSeek上车 能撼动图商的专业主义吗|时空智能新十年

撰文 |泰伯网 林槿近期,吉利、比亚迪、奇瑞、长城等超20家车企宣布接入DeepSeek大模型,四维图新、腾讯地图、百度地图等地图厂商也争相跟进。一时间,“DeepSeek上车”成为行业标配,甚至冠以...