価格性能比12倍でCPUを圧倒!最新GPUに目が離せない!

出典: トータル・ディスクロージャ・サイト(事実をありのままに)

最新GPU(Tesla M2090)が、最新CPU(Xeon X5690)を、ベンチマーク性能で大きく引き離しました。 HPCシステムズはGPUによる最高の高速化を追求し、お客様にご提供いたします。

目次

ベンチマーク概要

最新のCPUと最新のGPUで、同じ計算をさせて性能を比較します。

まずは最高性能が顕著に現れやすい行列積を対象として計算時間を測定しました。

行列演算については既に究極的に最適化された数値演算ライブラリがCPU、GPUともに提供されていますので、それを適用するのが大変有効です。

ソースコード説明

オリジナル

A(N,N), B(N,N)について、B = B + A * A を行う単純な行列積プログラムです。

CPU: インテル(R) MKL版

ソースコードでは、行列積計算部分を sgemm や dgemm を call する文に置き換えます。

call dgemm( 'N', 'N', N, N, N, 1.0d0, a, N, a, N, 1.0d0, b, N )

MKLをリンクする際、Intel(R) Math Kernel Library Link Line Advisor が参考になります。

/Qmkl /Qopenmp /nologo /4I8 /link mkl_intel_ilp64_dll.lib mkl_intel_thread_dll.lib mkl_core_dll.lib

GPU: CUBLAS版(PGIコンパイラを使用)

ソースコードでは、行列積計算部分を cublasSgemm_v2 や cublasDgemm_v2 を呼び出す文に置き換えます。

h1 = cublasGetHandle()
istat = cublasDgemm_v2( h1, 0, 0, N, N, N, 1.0d0, dA, N, dA, N, 1.0d0, dB, N )
ierr = cudathreadsynchronize()

-lcublasでCUBLASライブラリをリンクします。

pgif95 -fastsse -ta=nvidia:4.0 -Mcuda:4.0 -Minfo -lcublas

評価環境

最新GPU Tesla M2090 と 最新CPU Xeon X5690 の比較が主となります。

現行でよく使われているGPU、CPUの例として、1,2世代前のGPU、CPUもあわせて測定しました。

CPU,GPU 型番 発売時期 コンパイラ,ライブラリ,OS
CPU Intel Xeon X5690 2011/2~ ・インテル(R) Visual Fortran Composer XE Windows 版(64bit)
・MKL 10.3(Composer付属)
・Windows 7 Professional 64bit SP1
Intel Xeon W3520 2009/3~
Intel Xeon 3070 2006/9~ ・インテル(R) Visual Fortran Composer XE Linux 版(64bit)
・MKL 10.3(Composer付属)
・CentOS 5.6 x86_64"
GPU NVIDIA Tesla M2090 2011/5~ ・PGI Accelerator Fortran Workstation 11.9 Windows 版(64bit)
・CUBLASとCUDA 4.0(コンパイラ付属)
・Windows 7 Professional 64bit SP1
NVIDIA Tesla C2050 2009/12~

ベンチマーク結果

ファイル:matmul18kr.png ファイル:matmul18kd.png
ファイル:matmul10kr.png ファイル:matmul10kd.png

※ MKL では N=20,000 が最大性能(316.1 Gflops、理論性能の95%)を出しますが、double precisionの場合 Tesla M2090のメモリに載りきらないため、N=18,000 の結果を載せました。

※ N=18,000 double precision ではTesla C2050のメモリに載りきらず測定できないため、まんべんなく測定できる N=10,000を参考として載せました。

※ CPU(MKL)の測定ではMKL_NUM_THREADSを各CPUのコア総数に指定しました。

CUBLASライブラリを適用するとTesla M2090 1枚だけで755Gflopsに達します。 これは最新CPU Intel Xeon X5690 2個を MKL 12スレッドで動作させたときの 306Gflops(理論性能の90%)に対して、2.47倍の性能です。

今回は比較的高価なTeslaを使いましたが、同程度のスペックを有する Geforce GTX580でハードウェア構成することを考えると、 GTX580の場合約20万円で構成できるのに対し、 X5690 2個では約100万円かかるので、GPUでは約5分の1の費用で構成できます。 そうなるとCPUに対してGPUの価格性能比は約12倍です。

高性能計算を安く達成するにはGPUが不可欠と言えますね。

お声掛けください

HPCシステムズではGPGPUで大幅に高速化するサービスを提供しています。是非お問合せください!


この記事へのコメントをお寄せください

  • サイトへの書き込みに差し支えございましたら トータルディスクロージャーサイトサポート係へメールをお送りください
  • トータル・ディスクロージャ・サイトに投稿された文章と画像は、すべてその著作権がHPCシステムズ株式会社に帰属し、HPCシステムズ株式会社が著作権を所有することに同意してください。
  • あなたの文章が他人によって自由に編集、配布されることを望まない場合は、投稿を控えてください。
  • コメントを書き込む場合は名前にひらがなを織り交ぜてください。
  • あなたの投稿する文章と画像はあなた自身によって書かれたものであるか、パブリック・ドメインかそれに類する自由なリソースからの複製であることを約束してください。あなたが著作権を保持していない作品を許諾なしに投稿してはいけません!

<comments hideform="false" />


Comments

ノート:価格性能比12倍でCPUを圧倒!最新GPUに目が離せない!

個人用ツール