CUDA入門用マシンのベンチマーク(Tesla C1060より速い)

出典: トータル・ディスクロージャ・サイト(事実をありのままに)

 先日紹介させていただいた、CUDA入門用マシン(記事はこちら)のベンチマークを取ってみましょう。プログラムは行列積のプログラムです(記事とプログラムはこちら)。Fortranプログラムにディレクティブを入れるだけでGPUで動かしたもの(同じくこちら)、FortranでCUDAぽくGridとBlockを指定してGPUで動かしたもの(同じくこちら)、そしてFortranでShared Memoryを使い最高速でGPUを動かしたもの(同じくこちら)、の3種類を計測します。

$ ./matmul1
    6.994663     SEC
 CHECKSUM =    16017338556.46359     
$ ./matmul3
    4.303469     SEC
 CHECKSUM =    16017338556.46359     
$ ./matmul2
   0.6166010     SEC
 CHECKSUM =    16017338556.46359  

それぞれ、約7.0秒、約4.3秒、約6.2秒と、Tesla C1060での、約9.3秒、約5.3秒、約0.72秒 より1割〜3割程度速くなっています。CUDA入門用マシンの方が高速という結果になりました。

 GPUの違いを見るため、CUDA SDKに入っているdeviceQueryプログラムを実行してみます。CUDA入門用マシンでは、

$ ./devieQuery
CUDA Device Query (Runtime API) version (CUDART static linking)
There is 1 device supporting CUDA

Device 0: "GeForce GTX 285"
  CUDA Driver Version:                           2.30
  CUDA Runtime Version:                          2.30
  CUDA Capability Major revision number:         1
  CUDA Capability Minor revision number:         3
  Total amount of global memory:                 1073020928 bytes
  Number of multiprocessors:                     30
  Number of cores:                               240
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       16384 bytes
  Total number of registers available per block: 16384
  Warp size:                                     32
  Maximum number of threads per block:           512
  Maximum sizes of each dimension of a block:    512 x 512 x 64
  Maximum sizes of each dimension of a grid:     65535 x 65535 x 1
  Maximum memory pitch:                          262144 bytes
  Texture alignment:                             256 bytes
  Clock rate:                                    1.48 GHz
  Concurrent copy and execution:                 Yes
  Run time limit on kernels:                     Yes
  Integrated:                                    No
  Support host page-locked memory mapping:       Yes
  Compute mode:                                  Default (multiple host threads can use this device simultaneously)

Test PASSED

となっておりGeForce GTX 285が使われています。前回計測した、Tesla C1060では、

$ ./deviceQuery
CUDA Device Query (Runtime API) version (CUDART static linking)
There is 1 device supporting CUDA

Device 0: "Tesla C1060"
 CUDA Driver Version:                           2.30
 CUDA Runtime Version:                          2.30
 CUDA Capability Major revision number:         1
 CUDA Capability Minor revision number:         3
 Total amount of global memory:                 4294705152 bytes
 Number of multiprocessors:                     30
 Number of cores:                               240
 Total amount of constant memory:               65536 bytes
 Total amount of shared memory per block:       16384 bytes
 Total number of registers available per block: 16384
 Warp size:                                     32
 Maximum number of threads per block:           512
 Maximum sizes of each dimension of a block:    512 x 512 x 64
 Maximum sizes of each dimension of a grid:     65535 x 65535 x 1
 Maximum memory pitch:                          262144 bytes
 Texture alignment:                             256 bytes
 Clock rate:                                    1.30 GHz
 Concurrent copy and execution:                 Yes
 Run time limit on kernels:                     No
 Integrated:                                    No
 Support host page-locked memory mapping:       Yes
 Compute mode:                                  Default (multiple host threads can use this device simultaneously)

Test PASSED

となっています。multiprocessorの数は30、coreの数は240と同じです。メモリはGeForce GTX 285が1 GB、Tesla C1060が4 GBですが、これは速度とは無関係でしょう。

 速度に関係する事としては、Clock rateがGeForce GTX 285では1.48 GHzとTesla C1060の1.30 GHzに比べて、1割ちょっと高速です。また、deviceQueryではわかりませんが、メモリクロックがGeForce GTX 285では1242 MHzでTesla C1060の800 MHzに対して、5割以上高速になっています(詳しくはこちら)。この2つの違いが、速度の差となっていると考えられます。

--ケンちゃん 2010年3月15日 (月) 12:41 (JST)


この記事へのコメントをお寄せください

  • サイトへの書き込みに差し支えございましたら トータルディスクロージャーサイトサポート係へメールをお送りください
  • トータル・ディスクロージャ・サイトに投稿された文章と画像は、すべてその著作権がHPCシステムズ株式会社に帰属し、HPCシステムズ株式会社が著作権を所有することに同意してください。
  • あなたの文章が他人によって自由に編集、配布されることを望まない場合は、投稿を控えてください。
  • コメントを書き込む場合は名前にひらがなを織り交ぜてください。
  • あなたの投稿する文章と画像はあなた自身によって書かれたものであるか、パブリック・ドメインかそれに類する自由なリソースからの複製であることを約束してください。あなたが著作権を保持していない作品を許諾なしに投稿してはいけません!

<comments hideform="false" />


Comments

ノート:CUDA入門用マシンのベンチマーク(Tesla C1060より速い)

個人用ツール