「Radeon RX 6800」の秘密兵器はCPU由来の「Infinity Cache」だ - PC Watch

houselagian.blogspot.com

RDNA 2アーキテクチャの特徴

　AMDのRDNA 2アーキテクチャを採用した新世代GPU「Radeon RX 6000」シリーズについての情報が全面的に解禁となった。その性能的な解析については同時掲載のHothotレビューを参照されたいが、ここではRadeon RX 6000シリーズのアーキテクチャ側面について解説したい。

従来のRDNAと比較して54%電力効率が改善したRDNA 2

　既報のとおり、RDNA 2は従来のRDNAと同じ7nmプロセスを採用している。つまりトランジスタの特性的には大きく変わるわけではない。それであるにも関わらず、電力効率が54%改善しているという。

　数字的に見ると、Radeon RX 6900/6800のトランジスタ数は268億で、競合のGeForce RTX 3090/3080が286億であることを考えると抑えめ。製造プロセスの世代の違いもあり、ダイサイズも519.8平方mm対628平方mmと、コンパクトに抑えられている。

　これらの数字の比較だけで言えば、ほぼ拮抗する性能をより安価に(RX 6900が999ドル、RTX 3090が1,499ドル)提供できるのはなんら不思議ではない。ただ、同じ7nmプロセスのRDNAから54%もの電力効率改善が驚異的なのだ。

　同社によると、この54%の内訳は、高性能ライブラリの採用や速度重視のパイプラインの再設計、CPUでも採用された高クロック設計といった「動作クロックの向上」、クロックゲーティングやパイプラインの再配置、データの移動を抑えた「CACと電力の最適化」、Infinity Cacheの採用やジオメトリ/テッセレーション部分の最適化といった「クロックあたりの性能の向上」に集約されるという。

RDNA 2のアーキテクチャ

RDNA 2アーキテクチャの概要

同等のクロックでは半分の電力、同等の電力では1.3倍以上のクロックを実現

電力効率改善の内訳

レイトレーシングに関する実装は最小限

　GeForce RTXではレイトレーシングを専門に行なう「RTコア」と、AI処理を高速化する「Tensorコア」を加え、レイトレーシングのノイズ削減対策を行なっているのに対し、Radeonは1CU/1クロックあたり4本のレイ(光線)とボックス、または1本のレイとトライアングルのインターセクション(交差)処理を行なう「レイアクセラレータ」を内包するに留まっており、GeForce RTXほど大規模な実装を行なっていない。そのためリアルタイムレイトレーシング性能はGeForce RTXに劣る。

　それでもRDNA 2はこのレイアクセラレータにより、従来のRDNAの10倍以上のレイトレーシング性能を実現している。その手助けをしているのが、128MBのL3キャッシュ「Infinity Cache」だ。

　レイトレーシングを実現するうえで重要な手法の1つに、バウンディングボリューム(BVH)がある。オブジェクトを外接する大きなボックスで囲い、レイの軌跡の交差を判定するが、BVHではこのボックスをツリー状に管理し、階層型とすることでインターセクションテストの回数を減らせる。Infinity Cacheではより多くのBVHワーキングセットを保持しておくことで、インターセクションの遅延を抑えているのである。

レイアクセラレータの実装

Infinity Cacheにより、レイアクセラレータという最小限の実装でもソフトウェア処理より10倍高速

　そもそもDirectXにおけるレイトレーシングの実装自体、専用のハードウェアを用いる必要がなく、従来の汎用演算ユニットで対応可能なのだが、Radeonではレイアクセラレータというシンプルな実装を行なうだけで、ソフトウェアで処理するより高速に行なえるようにした。ちなみにレイトレーシングにおけるノイズ削減に関しては、同社独自の「FidelityFX」によって実現していくとのことだった。

　Radeonの開発チームは、実用的なリアルタイムレイトレーシング性能と品質を、現時点の半導体技術で実装するのは現実的ではないと考えている。また、既存のレンダリング技術でも、さまざまな手法が増えてきていて、レイトレーシングに見劣りしないレベルのグラフィックスを実現できている。そのためレイトレーシングの実装にコストを大きく割かなかった。

RDNA 2によって実現するレイトレーシング。どちらかといえばエフェクトの強化の意味合いが強い

　もっとも、RDNA 2では汎用演算に使われるCompute Unitに関しては強化されている。まず、異なる精度の整数/浮動小数点演算が混在する操作が可能となった。これはTensor演算への対応のためとされているが、つまりはTensorコア的な振る舞いもできるという理解でいいだろう。

　また、レンダーバックも強化し、1サイクルあたり8つの32bitピクセルが扱えるようになった。ラスタライゼーションとも連携し、可変レートシェーディングにも対応した。このほか、DirectX 12 Ultimateで定められているメッシュシェーダ、サンプラーフィードバックにも対応した。

RDNA 2の最小構成単位であるCompute Unitの構造

精度が異なる演算も可能になった

レンダーバックを改善し、可変レートシェーディングに対応した

DirectX 12 Ultimateに対応

Let's block ads! (Why?)