当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

5个月前 (02-26)DeepSeek技术交流336

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

deepseek能用来干啥-deepseek有什么用途

deepseek能用来干啥-deepseek有什么用途

DeepSeek是一款基于人工智能技术的工具,旨在帮助用户高效处理和分析数据、生成内容、优化工作流程等。其应用场景非常广泛,具体功能和使用场景包括但不限于以下几个方面:一、数据分析与可视化数据导入:支...

人福医药:将关注DeepSeek等前沿技术的发展与应用

人福医药:将关注DeepSeek等前沿技术的发展与应用

金融界3月27日消息,有投资者在互动平台向人福医药提问:董秘您好!请问贵公司是否已经部署了DeepSeek?如果已经部署了,请问主要应用于哪些具体的业务?公司接入DeepSeek有哪些成本、收益方面的...

神州信息引入国产开源大模型DeepSeek

神州信息引入国产开源大模型DeepSeek

36氪获悉,神州信息最新引入国产开源大模型DeepSeek,实现对全栈金融解决方案的智能化迭代升级,通过低成本、高安全的私域环境部署,帮助银行客户快速获得大模型的各项能力,全面加速银行智能化发展。通过...

新国都子公司上海拾贰区信息技术公司相关产品已接入DeepSeek大模型

新国都子公司上海拾贰区信息技术公司相关产品已接入DeepSeek大模型

新国都子公司上海拾贰区信息技术公司相关产品已接入DeepSeek大模型每经AI快讯,新国都2月25日在互动平台表示,DeepSeek为开源大模型,各家厂商均可根据自身需求对其进行模型的适配与本地化部署...

最新!DeepSeek在肇庆部署上线

最新!DeepSeek在肇庆部署上线

近日,从肇庆市政务服务和数据管理局获悉,国产大模型DeepSeek-R1正式在肇庆市政务云部署上线将全面支持肇庆市全域数字化转型工作目标,标志着肇庆市在人工智能产业发展中迈出了坚实的一步。近年来,肇庆...

银河麒麟通过DeepSeek认证,行业智能升级有了国产基座

银河麒麟通过DeepSeek认证,行业智能升级有了国产基座

近日,银河麒麟高级服务器操作系统通过中国软件评测中心(工业和信息化部软件与集成电路促进中心)严格测试,获得《DeepSeek适配测试证书》,成为首个通过该认证的国产操作系统。这标志着麒麟软件推动人工智...