当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布开源周首个成果 可优化英伟达GPU效率

7个月前 (02-24)Deepseek最新资讯321

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。


据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。


贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。


上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


“DeepSeek发布开源周首个成果 可优化英伟达GPU效率” 的相关文章

科大讯飞:公司与DeepSeek无直接或间接股权关系

科大讯飞:公司与DeepSeek无直接或间接股权关系

科大讯飞在互动平台上表示,目前公司与DeepSeek无直接或间接股权关系。(本文来自第一财经)...

湖南大模型+DeepSeek 助力智能诊疗

湖南大模型+DeepSeek 助力智能诊疗

湖南日报3月12日讯(全媒体记者 王铭俊)记者今天从智慧眼科技股份有限公司获悉,该公司大模型砭石与DeepSeek的本地化部署应用,已在长沙市第一医院落地。智慧眼人工智能研究院院长胡频博士介绍,“砭石...

DeepSeek最高日赚346万元?官方称理论收益并非实际

DeepSeek最高日赚346万元?官方称理论收益并非实际

3月1日,DeepSeek在开源周最后一天抛出的"暴利"数据引发热议——V3/R1推理系统理论日利润高达346万元人民币(47.5万美元)。在这组看似惊人的数字背后,是一场关于AI...

海尔消费金融部署DeepSeek,客服质检效率显著提升

海尔消费金融部署DeepSeek,客服质检效率显著提升

随着人工智能技术的飞速发展,金融行业的数字化转型步伐也在不断加快。海尔消费金融作为行业内的佼佼者,率先引入了前沿的AI模型DeepSeek,以提升客服质检效率,进一步优化客户体验。DeepSeek作为...

全国高校首个!东南大学继DeepSeek又上线QwQ-32B

全国高校首个!东南大学继DeepSeek又上线QwQ-32B

本文转自【新华日报】;近日东大基于昇腾国产算力平台正式接入阿里最新开源模型QwQ-32B成为全国首个上线QwQ-32B服务的高校国产算力基座+头部大模型双轨融合将为教学科研注入更强的AI动能QwQ-3...

DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的秘密揭开

DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的秘密揭开

机器之心报道机器之心编辑部关于 DeepSeek-V3,你需要了解的一切。虽然此前 DeepSeek 已经发布了 V3 模型的技术报告,但刚刚,他们又悄然发布了另一篇围绕 DeepSeek-V3 的技...