NvidiaのBlackwellアーキテクチャGB202は750mm2・920億トランジスタを搭載し、最大188SMを実装している。
SMはGPC比1:16で構成され、高い演算スループットを実現する一方、小規模ワークロードではGPCボトルネックが生じる可能性がある。
Blackwellはサブチャンネルスイッチを廃止し、グラフィックスとコンピュートの混在を同一キュー上で効率的に並列実行できる。
各SMには32KBのL0命令キャッシュと約128KBのL1命令キャッシュを備え、8K命令程度の大規模コードに対応可能である。
固定長16バイト命令による高い命令サイド帯域をL0/L1キャッシュで支え、コードフットプリントを最適化している。
実行ユニットはFP32/INT32を32幅パイプで統合し、SMあたり12ウェーブを保持して高い並列性を実現する。
レイトレーシング性能は三角形交差テストレートがSMあたり2倍となり、Opacity Micromapsにも対応している。
SMレベルの128KB L1/共有メモリは単一128B/サイクルの帯域を提供し、総帯域は60TB/sを超える。
L2キャッシュは64バンク構成でレイテンシ約130ns、帯域8.7TB/sを持ち、GDDR7 512bitメモリバスでVRAM帯域を大幅に確保する。
AMD RDNA4(RX 9070)と比較して、BlackwellはSM数・キャッシュ容量・帯域幅で大幅に優位に立っている。
トップエンドのコンシューマGPU市場では競争相手が乏しく、Blackwellは現行最大規模GPUとしてデファクトスタンダードとなっている。
Get notified when new stories are published for "🇯🇵 Hacker News 日本語"