🔥 Gate 广场活动|#发帖赢Launchpad新币KDK 🔥
KDK|Gate Launchpad 最新一期明星代币
以前想参与? 先质押 USDT
这次不一样 👉 发帖就有机会直接拿 KDK!
🎁 Gate 广场专属福利:总奖励 2,000 KDK 等你瓜分
🚀 Launchpad 明星项目,走势潜力,值得期待 👀
📅 活动时间
2025/12/19 12:00 – 12/30 24:00(UTC+8)
📌 怎么参与?
在 Gate 广场发帖(文字、图文、分析、观点都行)
内容和 KDK上线价格预测/KDK 项目看法/Gate Launchpad 机制理解相关
帖子加上任一话题:#发帖赢Launchpad新币KDK 或 #PostToWinLaunchpadKDK
🏆 奖励设置(共 2,000 KDK)
🥇 第 1 名:400 KDK
🥈 前 5 名:200 KDK / 人(共 1,000 KDK)
🥉 前 15 名:40 KDK / 人(共 600 KDK)
📄 注意事项
内容需原创,拒绝抄袭、洗稿、灌水
获奖者需完成 Gate 广场身份认证
奖励发放时间以官方公告为准
Gate 保留本次活动的最终解释权
和H100相比,英伟达的H20、L20 和 L2 芯片性能如何?
原文来源:硬 AI
这两天,英伟达“钻空子”突破美国AI限制,推出中国市场“特供型号”,准备继续向中国公司出售高性能GPU的传闻闹得沸沸扬扬。
据媒体最新报道,英伟达即将推出至少三款新的AI芯片,包括 H20 SXM、PCIe L20 和 PCIe L2,以替代此前被美国限制出口的H100。这三款芯片均基于Hopper GPU 架构,最高理论性能可达296TFLOP(每秒浮点运算次数,也叫每秒峰值速度)。
那么,和H100相比,英伟达H20、L20、L2三款“特供型号”芯片的性能如何呢?
理论上,H100比H20的速度快了6.68倍。据分析师Dylan Petal最新发布的一篇博文,即使H20的实际利用率能达到90%,其在实际多卡互联环境中的性能仍只能接近H100的50%。
也有媒体称,H20的综合算力仅相当于H100的20%,而且由于增加了HBM显存和NVLink互联模块,算力成本会显著提高。
不过,H20 的优点也很明显,在大语言模型(LLM)推理方面比H100快了20%以上。理由是H20在某些方面与明年要发布的下一代超级AI芯片H200相似。
英伟达已经做出这三款芯片的样品,H20 和 L20预计将于今年 12 月推出,而 L2将于明年 1 月推出。产品采样将于发布前一个月开始。
01
「H20 Vs. H100」
先来看H100,拥有80GB HBM3内存,内存带宽为3.4Tb/s,理论性能为1979 TFLOP,性能密度(TFLOPs/Die size )高达19.4,是英伟达当前产品线中最强大的GPU。
H20,拥有96GB HBM3内存,内存带宽高达4.0 Tb/s,均高于H100,但计算能力仅为296 TFLOP,性能密度为2.9,远不如H100。
另外,该GPU的热设计功耗为400W,低于H100的700W,并且在HGX解决方案(英伟达的GPU服务器方案)中可以进行8路GPU的配置,它还保留了900 GB/s的NVLink高速互联功能,同时还提供了7路MIG(Multi-Instance GPU,多实例GPU)的功能。
H100 SXM TF16(Sparsity)FLOPS = 1979
H20 SXM TF16(Sparsity)FLOPS = 296
根据Peta的LLM性能对比模型表明,H20在moderate batch size下峰值token/秒,比H100高出20%,在low batch size下的token to token延迟比H100还要低25%。这是由于将推理所需的芯片数量从2个减少到1个,如果再使用8位量化,LLAMA 70B模型可以在单个H20上有效运行,而不是需要2个H100。
值得一提的是,H20的计算能力虽然只有296个TFLOP,远不及H100的1979个,但如果H20的实际利用率MFU(目前H100的MFU仅为38.1%),这意味着H20实际能跑出270 TFLOPS,那么H20在实际多卡互联环境中的性能接近H100的50%。
从传统计算的角度来看,H20相比H100有所降级,但在LLM推理这一方面,H20实际上会比H100快了20%以上,理由是H20在某些方面与明年要发布的H200相似。注意,H200是H100的后继产品,复杂AI和HPC工作负载的超级芯片。
02
「L20和L2配置更精简」
与此同时,L20配备48 GB 内存和计算性能为239个TFLOP,而 L2 配置为 24 GB 内存和计算性能193个TFLOP。
L20基于L40,L2基于L4,但这两款芯片在LLM推理和训练中并不常用。
L20和L2均采用 PCIe 外形规格,采用了适合工作站和服务器的PCIe规格,相比Hopper H800和A800这些规格更高的型号,配置也更加精简。
L40 TF16 (Sparsity) FLOPs = 362
L20 TF16 (Sparsity) FLOPs = 239
L4 TF16 (Sparsity) FLOPs = 242
L2 TF16 (Sparsity) FLOPs = 193