当前位置:首页 > Deepseek应用场景 > 正文内容

英伟达宣布创造满血 DeepSeek 推理世界记录

3个月前 (03-19)Deepseek应用场景161

IT之家 3 月 19 日消息,英伟达在今日举行的 NVIDIA GTC 2025 上宣布其 NVIDIA Blackwell DGX 系统创下 DeepSeek-R1 大模型推理性能的世界纪录。

据介绍,在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行 6710 亿参数的满血 DeepSeek-R1 模型可实现每用户每秒超 250 token 的响应速度,系统最高吞吐量突破每秒 3 万 token。

英伟达表示,随着 NVIDIA 平台继续在最新的 Blackwell Ultra GPU 和 Blackwell GPU 上突破推理极限,其性能将会继续不断提高。

▲ 运行 TensorRT-LLM 软件的 NVL8 配置的 NVIDIA B200 GPU

单节点配置:DGX B200(8 块 GPU)与 DGX H200(8 块 GPU)

测试参数:最新测试采用 TensorRT-LLM 内部版本,输入 1024 token / 输出 2048 token;此前测试为输入 / 输出各 1024 token

计算精度:B200 采用 FP4,H100 / H200 采用 FP8 精度

英伟达表示,通过硬件和软件的结合,他们自 2025 年 1 月以来成功将 DeepSeek-R1 671B 模型的吞吐量提高了约 36 倍。

节点配置:DGX B200(8 块 GPU)、DGX H200(8 块 GPU)、两个 DGX H100(8 块 GPU)系统

测试参数:依然采用 TensorRT-LLM 内部版本,输入 1024 token / 输出 2048 token;此前测试为输入 / 输出各 1024 token;并发性 MAX

计算精度:B200 采用 FP4,H100 / H200 采用 FP8 精度

与 Hopper 架构相比,Blackwell 架构与 TensorRT 软件相结合可实现显著的推理性能提升。

英伟达表示,包括 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B,运行 TensorRT 软件并使用 FP4 精度的 DGX B200 平台与 DGX H200 平台相比已经提供了 3 倍以上的推理吞吐量提升。

英伟达表示,在对模型进行量化以利用低精度计算优势时,确保精度损失最小化是生产部署的关键。IT之家注意到,在 DeepSeek-R1 模型上,相较于 FP8 基准精度,TensorRT Model Optimizer 的 FP4 训练后量化(PTQ)技术在不同数据集上仅产生微乎其微的精度损失。


“英伟达宣布创造满血 DeepSeek 推理世界记录” 的相关文章

DeepSeek崛起对重庆市智能产业发展的影响及应对

DeepSeek崛起对重庆市智能产业发展的影响及应对

DeepSeek崛起对重庆市智能产业发展的影响及应对一、发展现状人工智能具备典型通用技术特征,是培育和发展新质生产力的重要引擎。加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战...

卓繁信息发布循道 DeepSeek 大模型一体机 打造基垂融合智能体新标杆

卓繁信息发布循道 DeepSeek 大模型一体机 打造基垂融合智能体新标杆

近日,卓繁信息正式推出循道DeepSeek大模型一体机政企双版本,标志着人工智能软硬一体化解决方案在政企领域迈出重要一步。技术创新——双模型驱动构建行业智能中枢循道DeepSeek大模型一体机的核心优...

赋能千行百业!DeepSeek落地再提速

赋能千行百业!DeepSeek落地再提速

今年伊始,来自中国的AI大模型DeepSeek凭借好用、开源、免费三大特点火爆全球。AI大模型是指使用大规模数据和强大的计算能力训练出的人工智能模型,这些模型通常具有高度的准确性和泛化能力,可应用于自...

​DeepSeek预测10年后可能会消失的12种职业

​DeepSeek预测10年后可能会消失的12种职业

DeepSeek预测10年后可能会消失的12种职业: 1. 超市收银员2. 银行柜员3. 电话客服4. 基础翻译(英语等通用语种)5. 基础会计(凭证录入岗)6. 数据录入员7. 高速公路收...

电信科技+DeepSeek云智赋能福建漳州,让基层治理更有温度!

电信科技+DeepSeek云智赋能福建漳州,让基层治理更有温度!

AI出手,智解千千结!电信科技+DeepSeek云智赋能福建漳州,为基层工作者打造24小时在线的“智能助手”,让基层治理更有温度!...

“云枢”DeepSeek大模型一体机在石家庄发布聚焦政企用户核心需求破解了算力部署复杂、技术门槛高、安全可控难等核心问题

“云枢”DeepSeek大模型一体机在石家庄发布聚焦政企用户核心需求破解了算力部署复杂、技术门槛高、安全可控难等核心问题

3月1日,“云枢”DeepSeek大模型一体机在石家庄市鹿泉区正式发布。该产品由河北神奕信息科技有限公司自主研发,旨在为党政机关及企事业单位提供集算力支撑、模型服务、安全防护与应用开发于一体的全栈式解...