スーパーコンピュータ-システム...

of 17/17
2006 2006 2 2 7 7 株式会社 株式会社 日立製作所 日立製作所 All Rights Reserved,Copyright©2006,Hitachi.L スーパーコンピュータ-システム スーパーコンピュータ-システム システム システム A(SR11000) A(SR11000) ご説明 ご説明 2005 2005 年度 年度 KEK KEK 大型シミュレーション研究ワークショップ 大型シミュレーション研究ワークショップ 「超高速計算機が切り開く計算物理学の展望」 「超高速計算機が切り開く計算物理学の展望」

Post on 25-Jul-2020

0 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • 20062006年年22月月77日日

    株式会社株式会社 日立製作所日立製作所

    All Rights Reserved,Copyright©2006,Hitachi.Ltd

    スーパーコンピュータ-システムスーパーコンピュータ-システムシステムシステムA(SR11000)A(SR11000)ご説明ご説明

    20052005年度年度 KEK KEK 大型シミュレーション研究ワークショップ大型シミュレーション研究ワークショップ「超高速計算機が切り開く計算物理学の展望」「超高速計算機が切り開く計算物理学の展望」

  • ハードウェアの特長123

    目  次

    ソフトウェアの特長

    ユーザ利用環境

  • ハードウェアの

    特長

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.

    ハードウェア構成:システム構成図

    PetaSite

    EP8000/520

    SANRISE9575V

    EP8000/520

    EP8000/520

    HA8000/20W

    HA8000/20W

    Fiber Channel(2Gbps)

    1000BASE-T

    100Base-TX

    機構内ネットワーク

    機構内ネットワーク

    容量:4.5TB

    スーパーテクニカルサーバスーパーテクニカルサーバSR11000SR11000モデルモデルK1 16K1 16ノードノード

    理論演算性能理論演算性能:2.15 :2.15 TFLOPSTFLOPS

    総主記憶容量総主記憶容量:512:512GBGB

    SANRISE AMS 容量:61.1TB

    EP8000/520

    (テープライブラリ装置内蔵)

    EP8000/520

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.

    SR11000仕様概要(1)

    プロセッサ仕様

    288MB/ 16プロセッサL3キャッシュ容量

    1.875MB/ 2プロセッサL2キャッシュ容量

    データ:32kB/プロセッサ

    命令:64kB/プロセッサ

    L1キャッシュ容量

    2.1GHzプロセッサ周波数

    POWER5+プロセッサアーキテクチャ

    ノード間ネットワーク仕様(4リンク)

    8GB/sec ×2(双方向)ネットワーク転送速度

    クロスバネットワーク通信方式

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.

    SR11000仕様概要(2)

    ノード仕様

    32GB/ノードメモリ容量(物理容量)

    16ノードノード数(計算サーバA)

    134.4GFLOPS/ノード理論演算性能

    16way/ノードCPU数

    メモリ

    FSP

    基本IO

    IP IP IP IP IP IP IP IPIP IP IP IP IP IP IP IP

    メモリ

    FSP

    基本IO

    IP IP IP IP IP IP IP IPIP IP IP IP IP IP IP IP

    メモリ

    FSP

    基本IO

    IP IP IP IP IP IP IP IPIP IP IP IP IP IP IP IP

    8GB/s × 2(双方向)

    メモリ

    FSP

    基本IO

    IP IP IP IP IP IP IP IPIP IP IP IP IP IP IP IP

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.

    高効率なメモリバンド幅

    L3 L3 L3 L3 L3 L3 L3 L3

    P PL2

    P PL2

    P PL2

    P PL2

    P PL2

    P PL2

    P PL2

    P PL2

    0 128 256 384 512 640 768 896

    1K 1.13K 1.25K 1.38K 1.5K 1.63K 1.75K 1.88K

    SR11000

    データ

    Switch

    データが、均一にアロケーションされ高い実効メモリ・スループットを実現

    フラットメモリインターリーブ有り

    0 512

    1K 1.5K

    2K 2.5K

    3K 3.5K

    4K 4.5K

    P PL2

    P PL2

    P PL2

    P PL2

    P PL2

    P PL2

    P PL2

    P PL2

    4GB-

    通常SMP

    8GB- 12GB-

    データ

    Switch

    フラットメモリインターリーブ無し

    衝突 特定のメモリ・バスにアクセスが集中し、

    高いメモリ・スループットが得られない。

  • ソフトウェアの

    特長

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.

    SR11000の主なソフトウェア構成

    ・オペレーティングシステム:AIX 5L V5.2・ファイル共有:

      General Parallel File System(GPFS)  NFS・コンパイラ:最適化FORTRAN90、最適化C、最適化標準C++  ※性能モニタ機能、高速4倍精度演算機能を含む・並列アプリケーション開発実行環境:Parallel Environment(MPI)・ジョブ実行管理:LoadLeveler・数値計算副プログラムライブラリ:

                  MATRIX/MPP、ESSL、Parallel ESSL              BLAS, LAPACK, ScaLAPACK・バックアップ:SONY PetaBack(ユーザによるバックアップ機能提供)

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.

    コンパイラ最適化機能

    ● 高度な自動並列化機能● 高精度なプログラム解析能力● 自動プライベート化,リダクション並列化● ループ構造変換による並列化● 自動並列化支援のための各種指示文を用意● 業界標準OpenMP2.0仕様● 高速並列処理方式と同期削減最適化による高い並列化効率

    SMP:Symmetrical Multi Processor

    ● 命令レベル最適化(Prefetch,ソフトウェアパイプラインなど)● ループ構造変換最適化● 広域自動手続きインライン機能● プロファイル最適化● 各種最適化指示文を用意

    ● 最適化診断メッセージにより,性能上のボトルネックを容易に検出● 並列化診断メッセージにより,プログラムの並列性を自動的に検出

    Powerプロセッサ向け最適化

    SMP向け並列化

    最適化/並列化診断メッセージ

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.

    性能追求の為のコンパイルオプション

    4倍精度の加減算に際し、仮数部最下位1ビット分の精度を犠牲にしてより高速な演算アルゴリズムを採用します。演算単価の比較で、およそ1.7倍高速になります。–roughquad6

    4倍精度演算をライブラリに置き換える最適化です。=1は、除算と平方根のみ、=2は加えて加減算および乗算をライブラリコールに置き換えます。ある程度以上の長さを持つ配列に対する4倍精度演算を行っている場合に性能向上が期待できます。

    –quadlib=[0¦1¦2] (FORTRANのみ)

    ユーザーが展開対象や展開位置を指定しなくとも、コンパイラが自動的に一定サイズの範囲内で関数・手続きを適当に選定し自動的にインライン展開します。プログラム実行中の手続き・関数の呼び出し回数が多い場合に性能が改善される可能性があります。逆に、展開によりループ中の基本ブロックサイズが著しく増大した結果、各種の最適化が適用不能となり、性能が劣化する可能性もあります。

    メモリからキャッシュラインにデータを持ってくる場合、メモリコピーのストア先領域のように、ライン全体が一度も読み出されることなく、すべて別データで書き潰されることがあらかじめ分かっている場合、メモリ状態を反映せずキャッシュラインをゼロで固定的に初期化する特殊なプリフェッチ命令を生成することで、ストア時のキャッシュアクセスに要する時間を短縮します。対象がすでにインキャッシュである場合は、性能が劣化する可能性があります。

    ループネストを対象として、実行時にメモリから参照するデータのワーキングセットを当該マシンの特定レベルのキャッシュ容量に納めることで、キャッシュ内データの再利用性を高めて実行性能が向上するよう、既存ループの繰り返し回数の変更、制御ループの追加を行います。

    除算/逆数/平方根演算の高速化、if文を含むループのSWPL化、各種のループ構造変換を伴う自動並列化、一時配列を導入したベクトル数学関数の適用、を行います。

    説 明

    -looptiling2

    -autoinline4

    –prefetch_zero3

    –Oss (FORTRANのみ)

    項 目項番

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.

    性能モニタ機能の特長

    「性能モニタ機能」とは、プログラムの性能情報を提供し、ボトルネック部分を特定し、高速化を支援

    ● コンパイル・リンク時のオプション追加により、利用可能。

     → 性能モニタ関数をコンパイラが自動挿入、ソースコード

       の修正不要。

    ● SR8000の性能モニタ機能とほぼ同等に、CPU時間、FLOPS等が、

     ・サマリー情報 ・関数/手続単位の情報 ・各並列部単位の情報

     として表示されます。

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.

    行列計算ライブラリ MATRIX/MPP

    行列計算副プログラムライブラリMATRIX/MPPは、ハードウェアの性能を充分に引き出せる工夫をした副プログラムライブラリです。FORTRAN言語およびC言語で作成したプログラムから利用することができます。

    主な機能は以下の通りです。共有メモリー型並列に加え、分散メモリー型並列に対応したインタフェースを装備しています。・基本配列演算

    ・連立1次方程式直接解法

    ・連立1次方程式反復解法

    ・逆行列

    ・固有値、固有ベクトル

    ・高速フーリエ変換

    ・擬似乱数生成

  • ユーザ利用環境

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.

    エンドユーザ環境

    バックアップ:tapebkupリストア:taperestテープ管理:tapels

    scfeからPetaSite(テープライブラリ装置)にバックアップ

    バックアップ8

    /work : 高速アクセス用磁気ディスク(ディスクA)/dataX : データ保管用磁気ディスク(X=1~5)

    /work(3.5TB) : GPFS (SR11000直結)/dataX(60TB) : JFS2 (NFSアクセス)

    データ領域7

    -LoadLevelerジョブ実行環境6

    ノード内は、日立最適化コンパイラ用指示文またはOpenMP2.0による並列化可能

    ノード内:コンパイラによる自動並列化ノード間:MPI (Parallel Environment)

    並列化環境5

    最適化FORTRAN最適化C最適化標準C++

    sh, csh, tcsh, bash, ksh(デフォルト)

    ソフトリミット:5GB、ハードリミット:8GB

    scfe.kek.jp (SR11000にはログイン不可)

    説 明

    -ホームディレクトリ2

    -コンパイラ4

    -シェル3

    POWER5プロセッサ(1.65GHz)、OS:AIXv5.2

    SSH2のみアクセス可(アクセス元ホスト制限)ログインホスト1

    備 考項 目項番

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.

    バッチジョブ環境

    -4h14q4b10

    -Q4

    4h14q4a9

    -8h11q1f8

    -8h11q1e7

    -4h11q1d6

    -4h11q1c5

    -2h11q1b4

    -2h11q1a3

    24

    メモリ上限値

    (GB/ノード)

    1

    1

    使用

    ノード数

    1

    1

    実行ジョブ

    最大数

    30min

    5min

    経過時間

    上限値

    Q1

    -

    ジョブグループ名

    (課金の単位)

    -q1m2

    テストジョブ実行用q1s1

    備考ジョブ

    クラス名

    項番

    ジョブをキャンセルするllcancel3

    ジョブの状態確認llq2

    ジョブを投入するllsubmit1

    概  要コマンド項番

  • All Rights Reserved,Copyright©2006,Hitachi.Ltd.