当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek的一串“符号”背后：对国产芯片意味着什么？

2个月前 (09-02)Deepseek最新资讯218

　　这是深度求索公司8月份在新发布新模型DeepSeek V3.1的文档中所留下的一个关键信息。

　　整个8月下旬，这串“符号”成为国产芯片与算力行业在资本市场狂欢的“财富密码”。然而，对于非行业专业投资者来说，只有一头雾水，很难明白这串略显晦涩的代码到底意味着什么，可以让市场如此兴奋。

　　“UE8M0 FP8”到底是什么意思？为什么它能引发资本市场对国产芯片的高度关注？而我们又需注意哪些不确定性？21世纪经济报道记者采访了数位AI和算力行业人士，并尝试为这三个问题找到一些解答。

　　“FP”即“浮点”，是计算机二进制计算的基础单位，与“INT”整数计算相对应，常以科学计数法表达数据，适用于图形处理、科学计算、深度学习等应用场景。“FP8”即代表8位浮点，以此类推，FP16、FP32分别代表16位和32位浮点。而每个浮点位又分别用于记录符号（+、-）、“E”阶数（指数）、“M”尾数（小数）等关键数据信息，“通过科学计数法计算的方式”来记录数据。

　　一个恰如其分的比喻是，“指数位E”是人工智能丈量世界的尺的刻度，它既能测量微观世界的尘埃，也能丈量宏观世界的山河——但是，它需要符号位和尾数“M”来帮它确认精度。而在主流的参数格式FP8、FP16、FP32等中，其主流参数格式对应的指数位分别为4位、5位和8位。

　　其中，“FP32”是科学计算、模型训练和推理的金标准，但因浮点位数高，计算资源耗费巨大，常用“混合”了FP16、FP8的混合精度进行高效化替代。

　　而“UE8M0”，就仿佛一个“百招会不如一招鲜”的高手，将自己所有的技能点全部聚焦到自己的量程之上，由此达到和FP32同样的数据范围。

　　“E8M0是用8位表示指数部分，尾数部分为0，所以Scale（标度）的值范围上和FP32差不多，因为FP32也是8位表示指数部分，可以保证量化范围大，有利于模型训练的数值稳定。”前全球头部数据库企业高管许天（化名）告诉记者：“所以我理解E8M0对比FP32速度更快，对比E5M2类的FP8数值范围更大，训练更稳定。”

　　当然，纯粹的“UE8M0”，自然会以舍弃精度作为代价。但是，由于Transformer架构（一种采用注意力机制的深度学习架构）下的AI大模型，其关键自注意力机制原本就依赖于浮点的大量程，因此 “UE8M0”创造了一种“牺牲局部精度，换取全局稳定”的人工智能计算格式。

　　“UE8M0 FP8指的是一种为中国市场而特别定制的模型格式，能有效降低计算功耗，基于芯片规格的限制，此格式对中国的芯片厂商比较友好。”Omdia首席分析师苏廉节告诉记者deepseek。“相比之下，海外的厂商是直接采用标准的FP，如E3M4或E5M2等。”

　　毫无疑问，受制于技术积淀时间较短，而基于中国标准的算力生态建设还需完善，因此，国产算力硬件在制程、速率、电耗等标准上存在较大的提升空间。

　　而采用“UE8M0 FP8”格式深度适配国产芯片，并不仅仅是一项技术上的选择，更是基于国产芯片的发展现状、实际产业需求以及特定应用场景所共同推动的结果。本质上是一次用算法创新弥补硬件短板，用生态协同构建自主路线的战略考量。

　　比如，国产芯片在先进制程（如7nm及以下）的制造和封装技术上与国际顶尖水平存在差距，直接影响了芯片的算力密度。主流的矩阵乘法和卷积等编码方式需要耗费极大算力以保留精度，而UE8M0的纯指数编码格式，将计算简化为指数移位和加法操作，大幅降低了大量算力负荷。

　　与此同时，长期以来AI领域由英伟达CUDA生态主导，导致国产芯片往往需要兼容CUDA，且难以充分发挥自身硬件特性，也很难开拓性地建立自己的生态系统。

　　而“UE8M0”作为一种更加开源、未被单一厂商绑定的格式，可能成为国产芯片重建生态体系的关键。

　　无独有偶，虽然未来“UE8M0 FP8”仍然会基于混合精度模式驱动语言类大模型应用，但是广义的人工智能又绝非“大语言模型”这么简单。比如，在今年年初DeepSeekV2问世之后，不仅人们在生活之中开始处处使用大语言模型交互，而且更多的企事业单位也对DeepSeek进行本地化、私有化部署，并通过语料后训练等用于各种专用用途。

　　事实上，除大语言模型之外，明确定义的专用用途AI大模型更需具备大量程、高稳定、高效率的算力特点。

　　比如，常被应用于自动驾驶和人形机器人具身智能的多模态VLA模型，满足高效计算、大内存带宽和极大动态范围的需求，特别是在处理多模态、大规模数据且部署在计算资源受限的边缘设备时，优势明显；而在工业质检、政务文档处理等场景，往往需要低延迟、高准确率的AI模型，并且对成本敏感。

　　简而言之，在明确定义的专用场景之中，“UE8M0 FP8”能够发挥其高效、稳定的特点，在配合混合参数精度的情况下，很可能是更适合“中国速度”，以及千行百业“AI+”的参数格式。

　　当然，这个“UE8M0”背后仍然蕴藏着不确定性，如人形机器人精确操作依赖高精度的VLA架构，如原生的中文大语言模型，也需要高精度来显得更为“智慧”。

　　资料显示，寒武纪的算力芯片思元590及可能于未来发布的690系列芯片均原生支持FP8计算，而沐曦、燧原等国产AI芯片厂商也均表态其适配FP8计算。

　　8月末，阿里巴巴公司也宣称，其即将推出自研的AI算力芯片，并且会适配英伟达的CUDA生态，但未明确其是否适配FP8参数格式。

　　那么，DeepSeek所预言的下一代FP8芯片究竟归属哪家？21世纪经济报道记者咨询多位业内人士之后，仍未获得进一步的信息。记者获得的绝大部分说法是：各家均没有明确的迹象，显示其使用了“UE8M0 FP8”混合参数模型。

　　“我认为这是DeepSeek在向国产芯片行业提出自己的标准，”另一位中资全球化数字科技企业高管告诉记者：“这一逻辑的根源是，DeepSeek已经在中国获得了绝对的行业地位和市占率，因此它有能力让芯片厂商根据自己的生态系统去定义芯片设计。”

　　这位不具名高管还向记者透露，虽然国产芯片对英伟达Hooper架构系列芯片的追赶已初见成效，如寒武纪等公司宣称其新品能力在专用场景下的能力达到H100的80%，但随着英伟达Blackwell系列芯片的推出（其甚至采用了FP4的混合精度架构），以及特供中国B30a系列芯片的发货，国产芯片追赶国际一流芯片能力上仍有较长的路要走。原文出处：DeepSeek的一串“符号”背后：对国产芯片意味着什么？，感谢原作者，侵权必删！

标签: deepseek