刚刚!梁文锋参与发表回顾性论文:DeepSeek首次揭秘V3模型背后扩展方案

客服微996438432个月前财经知识54

论文里面的模型是什么意思_论文里的模型_

DeepSeek刚刚发表了一篇名为《深入解读 DeepSeek-V3:AI 架构的扩展挑战与硬件思考》(Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures)的回顾性论文,梁文锋也是作者之一。这篇论文深入剖析了最新的大模型DeepSeek-V3及其AI基础设施扩展方案,DeepSeek-V3的实践充分证明了硬件-软件协同设计在提升AI系统可扩展性、效率和鲁棒性方面的巨大潜力

_论文里面的模型是什么意思_论文里的模型

强烈推荐精读!

快速解读一下这篇论文

论文开宗明义:软硬协同

文章一上来就点明了当前大模型(LLM)发展的核心矛盾:模型规模、训练数据和算力需求飞速增长,但现有硬件架构在内存容量、计算效率和互连带宽方面都面临严峻挑战。DeepSeek-V3的成功,恰恰证明了“硬件感知模型协同设计”是解决这些挑战、实现大规模经济高效训练和推理的关键。

这篇论文的目标不是重复DeepSeek-V3的技术报告,而是从硬件架构和模型设计的双重角度,探讨它们之间复杂的相互作用,并为未来AI系统的可扩展性、成本效益提供实用蓝图

DeepSeek-V3核心设计揭秘:三大挑战,逐个击破

DeepSeek团队围绕LLM扩展的三大核心挑战——内存效率、成本效益、推理速度——对DeepSeek-V3进行了精心设计

一、内存效率:榨干每一滴显存

首先是低精度模型 (FP8)。相比BF16,FP8直接将模型权重内存占用减半,极大缓解了“内存墙”问题。这一点在后面会详细展开

其次,DeepSeek-V2/V3采用的MLA (Multi-head Latent Attention) 技术,通过一个可共同训练的投影矩阵,将所有注意力头的KV表示压缩到一个更小的“潜向量”(latent vector)中。推理时只需缓存这个潜向量,大幅降低内存消耗。论文给出的对比数据显示,DeepSeek-V3 (MLA) 每token的KV Cache仅为70.272KB,而采用GQA的Qwen-2.5 72B为327.680KB,LLaMA-3.1 405B更是高达516.096KB。MLA的优势可见一斑!

_论文里面的模型是什么意思_论文里的模型

此外,论文也提及了业界其他有价值的方法,如GQA/MQA(分组/多查询注意力)共享KV对,Windowed KV(滑动窗口),以及量化压缩等。并展望了线性时间复杂度的注意力机制(如Mamba-2, Lightning Attention)和稀疏注意力的潜力

二、成本效益:MoE架构

DeepSeek-V3采用了其在V2中已被验证有效的DeepSeekMoE架构(混合专家模型)。MoE的核心优势在于“稀疏激活”:模型总参数量可以非常大,但每个token只激活一小部分专家参数

_论文里的模型_论文里面的模型是什么意思

这使得训练成本显著降低。DeepSeek-V2有236B参数,每token激活21B;DeepSeek-V3扩展到671B参数,每token激活仅37B。相比之下,像Qwen2.5-72B和LLaMA3.1-405B这样的密集模型,训练时所有参数都处于激活状态。从算力消耗对比 来看,DeepSeek-V3每token训练成本约250 GFLOPS,远低于LLaMA-405B的2448 GFLOPS,甚至低于Qwen-72B的394 GFLOPS

论文里面的模型是什么意思_论文里的模型_

MoE模型的低激活参数特性,也使得在个人电脑的AI SoC上也能实现不错的推理速度(如DeepSeek-V2在PC上可达近20 TPS甚至更高),为个性化LLM智能体和本地化部署铺平了道路。使用KTransformers推理引擎,DeepSeek-V3完整模型能在消费级GPU(约1万美元成本)的服务器上跑到近20 TPS

三、推理速度:分秒必争

DeepSeek模型从设计之初就考虑了通过双micro-batch重叠(dual micro-batch overlap)来隐藏通信延迟,最大化GPU利用率。生产环境中还采用prefill和decode分离的架构,针对性优化。

对于MoE模型,专家并行(EP)的All-to-All通信是瓶颈。论文以一个例子说明:若每设备一个专家,一次处理32个token,使用CX7 400Gbps InfiniBand网卡,一次EP(dispatch和combine)的通信时间约为120.96µs。在双micro-batch重叠的理想情况下,每层总时间约为241.92µs。DeepSeek-V3有61层,则总推理时间约为14.76ms,理论TPOT(Time Per Output Token)上限约为67 tokens/s。如果换成GB200 NVL72(900GB/s单向带宽),通信时间降至6.72µs,理论TPOT能飙升到1200 tokens/s!这生动展示了高带宽互连的巨大潜力。

受Gloeckle等人工作的启发,DeepSeek-V3引入了多令牌预测 (MTP, Multi-Token Prediction) 框架。传统自回归模型一次解码一个token,MTP则允许模型以较低成本生成多个候选token并并行验证,类似 speculative decoding。这能显著加速推理。实际数据显示,MTP对第二个后续token的接受率在80%-90%,使生成TPS提升1.8倍。同时,MTP也增大了推理batch size,有利于提升EP计算强度和硬件利用率。

像OpenAI的o1/o3系列、DeepSeek-R1等推理模型,以及PPO、DPO等RL流程,都极度依赖高token输出速度。

低精度驱动设计:FP8混合精度训练的探索

DeepSeek-V3的一大亮点是成功应用了FP8混合精度训练。在此之前,开源社区几乎没有基于FP8训练的大模型。

FP8的优势在于显著降低内存占用和计算量。但其在Hopper GPU上也面临硬件局限性:一是累积精度受限,Tensor Core在FP8累积时,虽然中间结果用FP22存储,但从32位尾数乘积右移对齐后,只保留最高的13位小数进行加法,这会影响大模型训练稳定性;二是细粒度量化开销大,像tile-wise(激活)和block-wise(权重)这样的细粒度量化,在将部分结果从Tensor Core传回CUDA Core进行缩放因子乘法时,会引入大量数据搬运和计算开销。

对此,DeepSeek的建议是:未来硬件应提高累积精度(如FP32)或支持可配置的累积精度;同时,Tensor Core应能原生支持细粒度量化,直接接收缩放因子并执行带组缩放的矩阵乘法,避免频繁数据搬运。NVIDIA Blackwell的microscaling数据格式正是这一方向的体现。

DeepSeek团队还尝试了一种名为LogFMT-nBit(对数浮点格式)的数据类型用于通信压缩。它将激活值从线性空间映射到对数空间,使得数据分布更均匀。但其局限性在于LogFMT数据在GPU Tensor Core计算前仍需转回FP8/BF16,log/exp运算开销和寄存器压力较大。因此,尽管实验验证了其有效性,但最终并未实际采用。他们建议未来硬件原生支持FP8或定制精度格式的压缩/解压单元

互连驱动设计:榨干H800的每一分带宽

DeepSeek-V3使用的NVIDIA H800 SXM节点,NVLink带宽有所缩减(从H100的900GB/s降至400GB/s)。为弥补这一不足,每节点配备了8个400G InfiniBand CX7 NIC

论文里面的模型是什么意思__论文里的模型

在硬件感知的并行策略上,DeepSeek训练中因NVLink带宽受限而避免使用张量并行(TP),推理时可选择性使用;采用DualPipe算法重叠Attention和MoE计算与通信来增强流水线并行(PP);并借助8个IB NIC实现超40GB/s的All-to-All通信速度以加速专家并行(EP)

模型协同设计方面,由于H800的NVLink(有效约160GB/s)和IB NIC(有效约40GB/s)带宽差异巨大,DeepSeek-V3引入了节点限制路由 (Node-Limited Routing) 的TopK专家选择策略:将256个路由专家分为8组,每组32个专家部署在单个节点上,并从算法上确保每个token最多路由到4个节点。这缓解了IB通信瓶颈。

关于Scale-Up与Scale-Out的融合,当前局限在于GPU SM既要处理网络消息,又要通过NVLink转发数据,消耗计算资源。DeepSeek建议未来硬件应集成统一网络适配器、专用通信协处理器、灵活的转发/广播/Reduce机制、硬件同步原语、动态NVLink/PCIe流量优先级、I/O Die Chiplet集成NIC,以及CPU-GPU Scale-Up域互连。

大规模网络驱动设计:多平面胖树

DeepSeek-V3训练中部署了多平面胖树 (MPFT, Multi-Plane Fat-Tree) Scale-out网络。每节点8 GPU + 8 IB NIC,每个GPU-NIC对属于一个独立网络平面。

MPFT的优势包括:作为多轨胖树 (MRFT) 的子集可利用NCCL优化;成本效益高,用两层胖树即可支持超万个端点;各平面流量隔离,单平面拥塞不影响其他;两层拓扑延迟更低且鲁棒性好。性能分析显示,其All-to-All通信和EP场景性能与单平面MRFT非常接近,在2048 GPU上训练DeepSeek-V3的指标也几乎一致。

在低延迟网络方面,IB延迟优于RoCE,但IB成本高、交换机端口密度低。对RoCE的改进建议包括:专用低延迟RoCE交换机、优化路由策略(如自适应路由)、改进流量隔离/拥塞控制机制。同时,DeepSeek也利用了InfiniBand GPUDirect Async (IBGDA) 技术来减少网络通信延迟。

对未来AI硬件架构的展望

论文最后,DeepSeek团队基于实践经验,对未来AI硬件设计提出了更宏观的思考:

1. 鲁棒性挑战:应对互连故障、单硬件故障、静默数据损坏等问题,硬件需集成高级错误检测机制并提供诊断工具

2. CPU瓶颈与互连:解决PCIe带宽瓶颈、高内存带宽需求、CPU单核性能及核心数问题,建议CPU-GPU直接互连或集成到Scale-up域

3. 迈向AI智能网络:发展硅光子、高级端到端拥塞控制、自适应路由、高效容错协议和动态资源管理

4. 内存语义通信与顺序问题:硬件应支持内建的内存语义通信顺序保证(如acquire/release语义),消除sender端fence

5. 网络内计算与压缩:优化EP的dispatch和combine,原生集成LogFMT等压缩技术

6. 内存为中心的创新:推广DRAM堆叠加速器和System-on-Wafer (SoW)技术。

参考:

星标AI寒武纪,好内容不错过

用你的赞和在看告诉我~

求赞

相关文章

伍戈:“内卷”还持续多久?

伍戈:“内卷”还持续多久?

伍戈 系长江证券首席经济学家、中国首席经济学家论坛理事 核心观点: 1.不只是竞争。无论是商品房,还是新能源车,近期诸多市场都呈现由“以价换量”到“量价齐缓”的格局变化,微观主体感知到的“内卷”程度...

利好来袭!突然,暴涨!

利好来袭!突然,暴涨!

欧洲军工巨头业绩爆了。 瑞典防务巨头萨博(Saab)股价周五一度暴涨超17%,刷新历史最高纪录,年内累计涨幅已超139%。消息面上,萨博当天披露超预期的业绩报告,并大幅上调2025全年业绩展望。 有...

BTC重回9.4万美元,特朗普大办Trump晚宴,牛回速归?

BTC重回9.4万美元,特朗普大办Trump晚宴,牛回速归?

压力山大,特朗普终于退缩了。 在关税磋商启动、鲍威尔危机解除后,全球金融市场终于迎来了触底反弹。上周,美股三大指数震荡反弹,道指单周上涨2.48%,标普500指数涨超4.5%,纳指涨幅达到6.73%...

转型不到四年,钧达股份成光伏电池“A+H”第一股

转型不到四年,钧达股份成光伏电池“A+H”第一股

5月8日,钧达股份(002865.SZ;2865.HK)登录港交所主板,成为国内首家“A+H”上市的光伏电池企业,当日港股股价即上涨20.09%。 然而,光环之下隐忧浮现,钧达股份正面临业绩亏损、负债...

双林股份2024年业绩显著增长,但需关注应收账款和现金流状况

双林股份2024年业绩显著增长,但需关注应收账款和现金流状况

尽管公司业绩表现出色,但其应收账款体量较大,当期应收账款为14.27亿元,占最新年报归母净利润的比例高达287.14%。此外,公司的货币资金为6.22亿元,而有息负债为8.7亿元,货币资金与流动负债的...

估值715亿,“手机芯片第一股”高度依赖低端市场

估值715亿,“手机芯片第一股”高度依赖低端市场

导语:紫光展锐的市占率(10%)与收入份额(3%)严重不匹配,反映出产品主要集中于低端市场的现状。 紫光展锐作为中国最大的独立手机芯片设计企业,近期已完成科创板IPO辅导备案,估值高达715亿元,有望...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
客服微信:BT86616点击复制并跳转微信