KeplerのKernel呼び出しオーバーヘッド Part 2

出典: トータル・ディスクロージャ・サイト(事実をありのままに)

KeplerのKernel呼び出しオーバーヘッドの記事のようにKeplerのKernel呼び出しのオーバーヘッドが大きいとして、具体的にどのくらいの大きさなのか知りたい、という意見が、GPGPU案件に対して社内のハードウェア選定担当から出た意見。そこで、今回はその具体的な大きさを、同じ環境でCPUをダウンクロックしながら、多少のベンチマークを交えて調べてみた。

テスト環境

CPU: クアッドコア Xeon W3565 3.2 GHz / 1.6 GHz (downclocked)
GPU: Tesla K20X / Tesla C2050
OS: CentOS 6.4
CUDA: CUDA 5.5
GPUドライバ: バージョン319.37開発用ドライバ

この環境で、CPUのクロックを3.2 GHzと1.6 GHzとの2パターン、さらにGPUをKepler世代とFermi世代との2パターンとの4パターンで、CUDA SDK付属のサンプルのうち、ベンチマークに使えそうなものをいくつか走らせてみた。

結果

3.2 GHz 1.6 GHz 性能低下
Mandelbrot Kepler 444.3860 441.0852 7.43 × 10-3
Mandelbrot Fermi 203.8700 203.8320 1.87 × 10-4
boxFilter Kepler 467.1494 465.1668 4.25 × 10-3
boxFilter Fermi 403.9074 403.2995 1.51 × 10-3
dct8x8 Kepler 14277.995562 14216.051511 4.34 × 10-3
dct8x8 Fermi 9814.451557 9785.144209 2.99 × 10-3
recursiveGaussian Kepler 39.20 39.20 0.00 × 100
recursiveGaussian Fermi 34.94 34.94 0.00 × 100
biliteralFilter Kepler 166.2716 165.5339 4.44 × 10-3
biliteralFilter Fermi 64.2030 64.1392 1.00 × 10-3
particles Kepler 175.5190 174.7999 4.10 × 10-3
particles Fermi 95.2176 95.0342 1.93 × 10-3
nbody Kepler 1629.854 1612.384 1.08 × 10-2
nbody Fermi 495.674 495.604 1.42 × 10-4

Fermiでの性能低下が0.1 ~ 0.2 %程度になっているアプリが多い中、Keplerでの性能低下は0.4 ~ 0.5 %程度と、やや大きな値となっている。Keplerのほうがそもそものベンチマーク値が大きいこともあり、実際のベンチマーク値のCPU性能の違いによる低下は、Keplerの場合はFermiの場合に対してかなり大きな影響を持っていると言えるだろう。


この記事へのコメントをお寄せください

  • サイトへの書き込みに差し支えございましたら トータルディスクロージャーサイトサポート係へメールをお送りください
  • トータル・ディスクロージャ・サイトに投稿された文章と画像は、すべてその著作権がHPCシステムズ株式会社に帰属し、HPCシステムズ株式会社が著作権を所有することに同意してください。
  • あなたの文章が他人によって自由に編集、配布されることを望まない場合は、投稿を控えてください。
  • コメントを書き込む場合は名前にひらがなを織り交ぜてください。
  • あなたの投稿する文章と画像はあなた自身によって書かれたものであるか、パブリック・ドメインかそれに類する自由なリソースからの複製であることを約束してください。あなたが著作権を保持していない作品を許諾なしに投稿してはいけません!

<comments hideform="false" />


Comments

ノート:KeplerのKernel呼び出しオーバーヘッド Part 2

個人用ツール