GeForce GTX TITANについて

出典: トータル・ディスクロージャ・サイト(事実をありのままに)

日本時間の2013/02/19に発表された、NVIDIAのコンシューマー向けハイエンドGPU GeForce GTX TITANTesla K20Xを使った現在の世界最速のスーパーコンピュータTitanの名前を使ったこのGPUは、コンシューマー向けGPUとしてはGeForce 200シリーズ以来の、Teslaと同水準の倍精度処理能力を持った製品(ただし、当時のTeslaの処理能力は単精度:倍精度=12:1というものであり、GeForce 500シリーズまでのGTXブランドGPUも12:1という比率を下回ることは無かった)であるという点で話題を集めている。

スペック速報

2013/02/20現在のNVIDIAの公式発表や各種ニュースサイトの情報によると、GeForce GTX TITANのスペックは以下のようなものだと考えらえる。

GTX
980
TITAN
Z
TITAN
Black
GTX
TITAN
GTX
780 Ti
GTX 690 GTX 590 Tesla
K40
Tesla
K20X
Tesla
K20
Tesla
K10
Xeon Phi
7120P
Xeon Phi
5110P
FirePro
W9100
CUDA Core数 2048 5760 2880 2688 2880 3072 1024 2880 2688 2496 3072 976* 960* 2816
(2 × 2880) (2 × 1536) (2 × 512) (2 × 1536)
CUDA Core周波数(MHz) 1126 705 889 837 875 915 1215 745 732 706 745 1238 1053 930
単精度理論性能
(GFLOPS)
4612.096 8121.600 5120.640 4499.712 5040.000 5621.760 2488.320 4291.200 3935.232 3524.352 4577.280 2416.576 2021.760 5237.760
5100.000 4500.000 4290.000 3950.000 3520.000 4580.000 5240.000
倍精度理論性能
(GFLOPS)
144.128 2707.200 1706.880 1499.904 210.000 234.240 311.040 1430.400 1311.744 1174.784 190.720 1208.288 1010.880 2618.880
**** 1300.000 1430.000 1310.000 1170.000 190.000 2620.000
メモリ容量(MiB) 4096 12288 6144 6144 3072 4096 3072 12288 6144 5120 8192 16384 8192 16384
(2 × 6144) (2 × 2048) (2 × 1536) (2 × 4096)
(ECC有効時) 0 0 0 0 0 0 0 11520 5760 4800 7168
メモリ周波数(MHz) 7000 7000 7000 6000 7000 6000 3414 6000 5200 5200 5000 5500 5000 5000
メモリバス幅(bit) 256 768 384 384 384 512 768 384 384 320 512 512 512 512
(2 × 384) (2 × 256) (2 × 384) (2 × 256)
メモリ帯域(GB/s) 224 672 336 288 336 384 327.7 288 250 208 320 352 320 320
GPUDirect ×
GPU同士のP2P通信は可だがNIC相手のRDMAは不可 TCP/IPないしOFEDで
P2P通信は可
Dynamic Parallelism × × × ×
プロセス管理はユーザ責任
Hyper-Q × × × ×
プロセス間では利用不可で同一プロセス内でのみ利用可 プロセス管理はユーザ責任
Compute Capability 5.2 3.5*** 3.5*** 3.5*** 3.5** 3.0 2.0 3.5 3.5 3.5 3.0 N/A N/A N/A

黒の数字は公称値、灰色の数字は推測値である。GTX TITANシリーズの倍精度有効時の周波数と性能について実環境で調べた結果、一部ニュースサイトで言われているような周波数低下が確認できず、倍精度無効時と同じ周波数しか確認できなかった。ただし、単精度/整数演算のベンチマーク値は倍精度有効時に確かに落ちていて、倍精度用の回路が増えたことで発熱量が増え、周波数ブーストのかかる頻度が下がっている可能性が十分に考えられる。初代TITANはCUBLASのDGEMMで1.3 TFLOPS前後の性能が出ていて、NVIDIAの宣伝している1.3 TFLOPSの数字はおそらく理論性能ではなく、このDGEMMのベンチマーク値(これを上回る実効効率を出せる実アプリの存在は考えづらいという側面も在るが)だと思われる。

*Xeon Phiの各CPUコアはSIMD命令によって16単精度浮動小数点計算を並列に行うパイプラインを持ち、この並列数がNVIDIAのGPUのCUDA Core数と相同であるため、このパイプラインの並列数を基準に算出している。5110PはCPUコアが60基なので16 × 60 = 960、7120PはCPUコア61基で16 × 61 = 976である。

**Dynamic Parallelism等のCompute Capability 3.5固有の機能は使えるが、倍精度浮動小数点演算を含む各種命令の所要クロック数はCompute Capability 3.0相応の遅さ。

***倍精度関連以外でCompute Capabilityの3.0と3.5で所要クロック数に差がついている命令(32ビット整数シフト)は、Compute Capability 3.0と同等の所要クロック数に制限されている。また、LOW_DPモードでは全命令がCompute Capability 3.0と同等の所要クロック数に落ちる。

****各種ニュースサイトのベンチマークは32分の1に近い数字が出ているが、NVIDIAからCompute Capability 5.2の理論性能についての公式発表は未確認。CUDA 6.5のProgramming GuideはCompute Capability 5.0の「32-bit floating-point add, multiply, multiply-add」のスループット128に対して「64-bit floating-point add, multiply, multiply-add」のスループットを1としているが、GTX 750 TiのようなCompute Capability 5.0のGPUの時点で性能は32分の1のようで、このあたりの正確な仕組みは未解明。


この記事へのコメントをお寄せください

  • サイトへの書き込みに差し支えございましたら トータルディスクロージャーサイトサポート係へメールをお送りください
  • トータル・ディスクロージャ・サイトに投稿された文章と画像は、すべてその著作権がHPCシステムズ株式会社に帰属し、HPCシステムズ株式会社が著作権を所有することに同意してください。
  • あなたの文章が他人によって自由に編集、配布されることを望まない場合は、投稿を控えてください。
  • コメントを書き込む場合は名前にひらがなを織り交ぜてください。
  • あなたの投稿する文章と画像はあなた自身によって書かれたものであるか、パブリック・ドメインかそれに類する自由なリソースからの複製であることを約束してください。あなたが著作権を保持していない作品を許諾なしに投稿してはいけません!

<comments hideform="false" />


Comments

個人用ツール