Blackwell架构采用750平方毫米芯片面积,集成922亿个晶体管和192个流式多处理器(SM)。
SM与图形处理集群(GPC)比为1:16,可在不增加GPC硬件的情况下提升计算吞吐。
Blackwell取消了图形和计算任务的“子通道切换”,可在同一队列上同时处理多种工作负载。
每个SM拥有32KB L0指令缓存和约128KB的L1指令缓存,可提供约8K条指令的缓存容量。
SM前端使用固定128位长度指令,高带宽需求由两级指令缓存体系满足。
执行单元整合为32位宽度管线,支持每周期16次INT32乘法,实现统一FP32/INT32执行。
SM本地128KB的L1/共享内存带宽达128字节/周期,整体带宽超60TB/s,总容量24MB。
L2缓存分为64个银行,带宽约8.7TB/s,延迟约130ns,兼顾大容量和较高带宽。
VRAM延迟约329ns,512位总线和GDDR7显存带来领先的全局带宽。
Blackwell凭借巨量SM数量、缓存和显存带宽,稳居消费级GPU性能顶端。
Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"