CUDA入門用マシンのベンチマーク(Tesla C1060より速い)
出典: トータル・ディスクロージャ・サイト(事実をありのままに)
先日紹介させていただいた、CUDA入門用マシン(記事はこちら)のベンチマークを取ってみましょう。プログラムは行列積のプログラムです(記事とプログラムはこちら)。Fortranプログラムにディレクティブを入れるだけでGPUで動かしたもの(同じくこちら)、FortranでCUDAぽくGridとBlockを指定してGPUで動かしたもの(同じくこちら)、そしてFortranでShared Memoryを使い最高速でGPUを動かしたもの(同じくこちら)、の3種類を計測します。
$ ./matmul1
6.994663 SEC
CHECKSUM = 16017338556.46359
$ ./matmul3
4.303469 SEC
CHECKSUM = 16017338556.46359
$ ./matmul2
0.6166010 SEC
CHECKSUM = 16017338556.46359
それぞれ、約7.0秒、約4.3秒、約6.2秒と、Tesla C1060での、約9.3秒、約5.3秒、約0.72秒 より1割〜3割程度速くなっています。CUDA入門用マシンの方が高速という結果になりました。
GPUの違いを見るため、CUDA SDKに入っているdeviceQueryプログラムを実行してみます。CUDA入門用マシンでは、
$ ./devieQuery CUDA Device Query (Runtime API) version (CUDART static linking) There is 1 device supporting CUDA Device 0: "GeForce GTX 285" CUDA Driver Version: 2.30 CUDA Runtime Version: 2.30 CUDA Capability Major revision number: 1 CUDA Capability Minor revision number: 3 Total amount of global memory: 1073020928 bytes Number of multiprocessors: 30 Number of cores: 240 Total amount of constant memory: 65536 bytes Total amount of shared memory per block: 16384 bytes Total number of registers available per block: 16384 Warp size: 32 Maximum number of threads per block: 512 Maximum sizes of each dimension of a block: 512 x 512 x 64 Maximum sizes of each dimension of a grid: 65535 x 65535 x 1 Maximum memory pitch: 262144 bytes Texture alignment: 256 bytes Clock rate: 1.48 GHz Concurrent copy and execution: Yes Run time limit on kernels: Yes Integrated: No Support host page-locked memory mapping: Yes Compute mode: Default (multiple host threads can use this device simultaneously) Test PASSED
となっておりGeForce GTX 285が使われています。前回計測した、Tesla C1060では、
$ ./deviceQuery CUDA Device Query (Runtime API) version (CUDART static linking) There is 1 device supporting CUDA Device 0: "Tesla C1060" CUDA Driver Version: 2.30 CUDA Runtime Version: 2.30 CUDA Capability Major revision number: 1 CUDA Capability Minor revision number: 3 Total amount of global memory: 4294705152 bytes Number of multiprocessors: 30 Number of cores: 240 Total amount of constant memory: 65536 bytes Total amount of shared memory per block: 16384 bytes Total number of registers available per block: 16384 Warp size: 32 Maximum number of threads per block: 512 Maximum sizes of each dimension of a block: 512 x 512 x 64 Maximum sizes of each dimension of a grid: 65535 x 65535 x 1 Maximum memory pitch: 262144 bytes Texture alignment: 256 bytes Clock rate: 1.30 GHz Concurrent copy and execution: Yes Run time limit on kernels: No Integrated: No Support host page-locked memory mapping: Yes Compute mode: Default (multiple host threads can use this device simultaneously) Test PASSED
となっています。multiprocessorの数は30、coreの数は240と同じです。メモリはGeForce GTX 285が1 GB、Tesla C1060が4 GBですが、これは速度とは無関係でしょう。
速度に関係する事としては、Clock rateがGeForce GTX 285では1.48 GHzとTesla C1060の1.30 GHzに比べて、1割ちょっと高速です。また、deviceQueryではわかりませんが、メモリクロックがGeForce GTX 285では1242 MHzでTesla C1060の800 MHzに対して、5割以上高速になっています(詳しくはこちら)。この2つの違いが、速度の差となっていると考えられます。
--ケンちゃん 2010年3月15日 (月) 12:41 (JST)
この記事へのコメントをお寄せください
- サイトへの書き込みに差し支えございましたら トータルディスクロージャーサイトサポート係へメールをお送りください 。
- トータル・ディスクロージャ・サイトに投稿された文章と画像は、すべてその著作権がHPCシステムズ株式会社に帰属し、HPCシステムズ株式会社が著作権を所有することに同意してください。
- あなたの文章が他人によって自由に編集、配布されることを望まない場合は、投稿を控えてください。
- コメントを書き込む場合は名前にひらがなを織り交ぜてください。
- あなたの投稿する文章と画像はあなた自身によって書かれたものであるか、パブリック・ドメインかそれに類する自由なリソースからの複製であることを約束してください。あなたが著作権を保持していない作品を許諾なしに投稿してはいけません!
