sx5@rcnp 超入門

23
SX5@RCNP 超超超 超超超超 超超超 超超超超 超超超超超超超超超超超超超超 RCNP 超超超超超超超 超超超超超超超超超超超超超超超超超超 「」 超超 超 超超 超 超超 超超 20041110() http://nio-mon.riise.hiroshima-u.ac.jp/~nakamura /RCNP-SX5.ppt

Upload: trixie

Post on 08-Jan-2016

73 views

Category:

Documents


4 download

DESCRIPTION

SX5@RCNP 超入門. 斎藤卓也 中村純 広島大学・情報メディア教育研究センター. RCNP ワークショップ「高速計算機を用いた研究の現状と将来」 2004年11月10日(水). http://nio-mon.riise.hiroshima-u.ac.jp/~nakamura/RCNP-SX5.ppt ( 出来れば英語版も準備したい ). このTalkで訴えたいこと or 真のHPCを目指して. SX5 at RCNP すばらしいハードウェア 是非研究に有効に役立てましょう 2.ボロボロのソフトウエア 我々の知識不足が原因? どうやってうまく使うか - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: SX5@RCNP 超入門

SX5@RCNP 超入門

斎藤卓也 中村純広島大学・情報メディア教育研究センタ

ーRCNP ワークショップ「高速計算機を用いた研究の現状と将来」2004年11月10日(水)

http://nio-mon.riise.hiroshima-u.ac.jp/~nakamura/RCNP-SX5.ppt( 出来れば英語版も準備したい )

Page 2: SX5@RCNP 超入門

このTalkで訴えたいことor

真のHPCを目指して

SX5 at RCNP1. すばらしいハードウェア

– 是非研究に有効に役立てましょう2.ボロボロのソフトウエア

– 我々の知識不足が原因?– どうやってうまく使うか– できれば何とか次期システムでしてほしい

Page 3: SX5@RCNP 超入門

国外ユーザーからのメッセージ• One complaint about SX5 is that there is no good and up to date help   web p

age (at least in English) for the users. They have changed now the   commands for submitting jobs etc. I have received e-mails concerning   those changes but the main body is in Japanese. It would be helpful   if there would be a web page with such info. in English (perhaps there is   and I don‘t know)   It is also not clearly stated anywhere which are the available disks and their characteristics, it seems that in some of them data is removed if   not used for a certain time.  Anyway, SX5 works much better than any of the systems I have used in Spain   so I don't want to complain too much.

• SX5 について不満に思うことは、どこにもユーザーに対するきちんとした最新の HELP ウェブページが(少なくとも英語では)無いことです。ジョブをサブミットするコマンドなどが最近変更されました。この変更に関する E-メールを受け取りましたが本文は日本語でした。もし、このような情報に関する英語のウェブページがあれば、とても助けになります。(おそらく存在していて私が知らないだけなのででょう) どれが使用可能なディスクで、その条件がどうなっているのか、どこにも記述が見当たりません。ディスクのいくつかは、一定時間使用されないと、データが消されるようです。しかし、 SX5 は私が自国でこれまで使ったどのシステムよりも、はるかによく動くので、あまり不満をいいたいとは思いません。

Page 4: SX5@RCNP 超入門

目次1. SX5 ( 中村 )

2. アカウントの取得まで (中村)3. ログイン、ジョブのサブミット (SX57)

(中村)4. SX 上でのコンパイル (斎藤)5. 並列実行 (SX52~57) (斎藤)6. 要望 (斎藤)

Page 5: SX5@RCNP 超入門

アカウントの取得まで1. 利用資格:素粒子・原子核の研究者

有職、無職を問わない 国外の人も利用可(これは大英断!大計センターは駄目)

2. RCNP理論部・保坂淳先生にメールでお願いする

3.   http://www.rcnp.osaka-u.ac.jp/Divisions/CN/computer/apply/apply_com.html

から UNIX マシーン (senri.rcnp.osaka-u.ac.jp) のアカウントを Web で申請。

このページだけ英語だが実際の申請ページ、説明は日本語なので、日本語の読めない人は誰かに頼む

4.   http://www.rcnp.osaka-u.ac.jp/Divisions/CN/computer/super/apply.html

を読んで、 UNIX マシーンからメールでスーパーコンピュータ (SX5 )のアカウントを申請

返事は senri に来る

Page 6: SX5@RCNP 超入門

ログイン、ジョブのサブミット(SX57)

1. senri.rcnp.osaka-u.ac.jp にまずログイン2. そこから sx5.rcnp.osaka-u.ac.jp へ ssh

  (telnet もOK)3. sx5 上の UNIX は非常に使いにくいので、

コンパイル、サブミット(とキューの確認)以外はできるだけ senri の上で

senri 上の /home.sx5/rcnpXXXX  に sx5 のホームがマウントされている(rcnpXXXX は sx5 上のアカウント名)

Page 7: SX5@RCNP 超入門

SX5

ベクトル機長い DO ループ(繰り返しループ)のある科学技術

計算なら、PCクラスターよりはるかに高い実行スピード、容易なプログラミング

1ノード =10GFLOPS/CPU × 16       + 128GB メモリー     ( 1GFLOPS=1 秒間に 109 回の和差積計算)

CMC (大阪大学サイバーメディアセンター)全体では8ノードRCNP が1ノード、

レーザー核融合研究センターが1ノード

Page 8: SX5@RCNP 超入門

多分配置はこうなっている

front02

(login.hpc.cmc.osaka-u.ac.jp)senri

(senri.rcnp.osaka-u.ac.jp)

SX57 (RCNP)

SX56 (ILE)SX50

SX51

SX52 SX54

SX53 SX55

Page 9: SX5@RCNP 超入門

ログイン、ジョブのサブミット(続き)

• コンパイルは (path は /usr/bin) fortran → f90 C → cc C++ → c++

• 投げるキューは RS 5 min 2GB( 最大 16GB) RM 2 hours 2GB( 最大 8GB) RL 8 hours 2GB( 最大 16GB)

Page 10: SX5@RCNP 超入門

ログイン、ジョブのサブミット(続き)

• キューの状態を見る qstat -u rcnpXXXX (自分のジョブの状態)  qstat -Q   (すべての状態)

• キュー上のジョブをキャンセル  qdel request.id

• NQSII (新しい NQS コマンド)一覧表英語版はどこ?

Page 11: SX5@RCNP 超入門

簡単なサブミットの例

• qsub –q RM script-file script-file の中身の例

#!/bin/csh -fsetenv F_PROGINF DETAILcd /sx/rcnp/home/rcnpXXXX./a.out   > outmv fort.2 fort.1qsub -q RM goNEXT

終了後、 XXX.oYYY, XXX.eYYY というファイルができる( XXX :スクリプトファイル名、 YYY :ジョブ ID )

Page 12: SX5@RCNP 超入門

SX5 上でのコンパイルOn sx57 ( Super-UX UNIX), % f90 program.f

On login02 ( Linux ), % sxf90 program.f

よく使うオプション% f90 -C hopt –Wf”-a dbl4” –ftrace

-C hopt : 最適化オプション     -Wf”-a dbl4” : 単精度実数→倍精度実数     -ftrace :  実行性能の測定

プログラム実行サイズの概算% size ./a.out

4151696 + 237456 + 441659328 = 446048480

( cmc上では、 size ではなく、 sxsize( バグあり? ) )

% ftrace -f ftrace.out

(sxftrace, login02 )

Page 13: SX5@RCNP 超入門

Ftrace*--------------------------* FLOW TRACE ANALYSIS LIST*--------------------------*

Execution : Fri Oct 1 18:20:26 2004Total CPU : 1:09'01"691

PROG.UNIT FREQUENCY EXCLUSIVE AVER.TIME MOPS MFLOPS V.OP AVER. VECTOR I-CACHE O-CACHE BANK   CONF

prodlink 1055803 1254.936( 30.3) 1.189 12945.6 5829.0   99.97 507.2 1254.300 0.1561 0.0530 520.8865

copylink 938136 791.739( 19.1) 0.844 1496.2 0.0       99.76 507.1 791.204 0.0466 0.0346 224.3939

dudxi 117317 655.447( 15.8) 5.587 4122.1 745.3      99.87 507.1 655.111 0.1700 0.0535 226.9930grotat 117267 402.203( 9.7) 3.430 2573.5 0.0       99.90 507.1 400.673 0.3391 0.1071 73.5016gprojct 117267 338.031( 8.2) 2.883 12490.8 5547.6     99.86 507.4 337.143 0.5163 0.1420 15.4681sgfix 117267 160.532( 3.9) 1.369 614.4 204.5       99.85 507.1 159.665 0.6046 0.0935 73.9506                   

                      略

init3 1 0.001( 0.0) 0.628 446.2 0.0 2.60 260.5 0.000 0.0000 0.0000 0.0000cinit3 1 0.000( 0.0) 0.003 30.3 0.0 0.00 0.0 0.000 0.0000 0.0000 0.0000----------------------------------------------------------------------------------------------------------total 3168865 4141.692(100.0) 1.307 6722.5 2567.4 99.91 507.0 4111.186 2.2417 0.7822 1311.3879

Page 14: SX5@RCNP 超入門

並列プログラムのコンパイルMPI を使うとき、

On sx57

% mpif90 mpi-test.f

On login02(cmc ノード )

% sxmpif90 mpi-test.f

並列キューの書き方

#!/usr/bin/csh#PBS -q P4A@cmccd /xxx/xxxxmpirun -np 4 ./a.out

Page 15: SX5@RCNP 超入門

並列プログラムのコンパイル自動並列化を使うとき% f90 –P auto

OpenMP を使うとき

% f90 –P openmp

並列キューの書き方

#!/usr/bin/csh

#PBS -q P4A@cmc

setenv OMP_NUM_THREADS 4

cd /xxx/xxx

./a.out

並列キュー(cmcノードのみ)P4A, P4, P8, P16 (同ノード内)

MPI32 、 MPI64

Page 16: SX5@RCNP 超入門

ハードディスク使用できおもなハードディスク:

MP(sx57)   MP(cmc) hosted speed(sx57) speed(cmc)    size      quota

/sx/rcnp/home /sx/rcnp/home sx57 high     mid     1TB 5GB/user

/sx/rcnp/work /sx/rcnp/work   sx57 high     mid     2TB none

/sxshort/rcnp /sxshort/rcnp CMC mid     high     8TB none

/sx/rcnp/data       ibm   slow         3TB none

/sx/rcnp/data2       fss   slow         2TB none

Page 17: SX5@RCNP 超入門

ハードディスク現在の使用状況:

sx57:/sx/rcnp/home 1.0T 330G 734G 31% /sx/rcnp/homesx5g0:/sxshort/cmc 8.3T 7.3T 1.0T 88% /sxshort/cmcsx5g0:/sxshort/ile 8.3T 7.3T 1.0T 88% /sxshort/ilesx5g0:/sxshort/rcnp 8.3T 7.3T 1.0T 88% /sxshort/rcnpsx54:/sx/cmc 1.0T 436G 588G 43% /sx/cmcsx56:/sx/ile/local 1.0T 150G 914G 15% /sx/ile/localsx56:/sx/ile/home 1.0T 150G 914G 15% /sx/ile/homesx56:/sx/ile/temp 2.1T 868G 1.2T 41% /sx/ile/tempsx57:/sx/rcnp/work 2.1T 2.1T 60G 98% /sx/rcnp/work

2週間で削除

ワークディレクトリ

ホームディレクトリ

Page 18: SX5@RCNP 超入門

計算結果の一例( SX5 による)格子 QCDシミュレーションによる有限温度 QCD電場・磁場遮蔽質量の計算。

並列キューP16、 P8、などを使い正味6ヶ月程の計算

Page 19: SX5@RCNP 超入門

要望1:コンパイラーについて1. Fortran90 は、 Fortran77 より遅い。2. F90 の自動並列化では、 Fortran90 のモジュールが並

列化されない。自動並列化したとき、やけに実行ファイルが大きくなる。

3. OpenMP(要素並列用インターフェース)でも、モジュールを含むとき並列化されない。(ひょっとして OpenMP の問題?実行ファイルは大きくならない。)

4. コールしないサブルーティンもメモリーを必要とする?モジュールを含んでいるせい?

Page 20: SX5@RCNP 超入門

要望2:ハードディスクについて

1. ユーザー個人(自分)専用の HD をもてないか?お金は自分ではらうので(300 GB あたり3万円程度)。

2. SX5 上で生成されたバイナリーファイルを、じかに login02(linux), senri 上で読み込むことはできないか? もしくは、データ転送した後自分のパソコンで。

3. RCNP と CMC 間の転送速度やお互いの HD の参照。(大変だとは思いますが・・・。)

Page 21: SX5@RCNP 超入門

要望3:実行するとき1. RCNP ではインタラクティブにプログラム実行が OK

( CMC では駄目)。とても便利、しかしフロントエンドの挙動が遅くなるので、制限を付ける?

2. RCNP ノードにおいて RL キューでも最大16 G バイトであり、上限を増やしたキューがほしい。これ以上のプログラムは要素並列化をしないといけない。

– P4 なら 60G バイト– CMC では 50G バイト( p1L) 、これは RCNP ユーザ

ーは使用不可。3. MPI で並列化しても Wall Clock time ( 戻ってくるまでの

実時間)は早いとは限らない。良いのか悪いのか???

Page 22: SX5@RCNP 超入門

要望4:その他1. ヘルプデスクの FAQ は、2001年度から何も更新さ

れていない。また、 RCNP からのヘルプデスクのリンクは切れている。

2. Super-UX はとにかく使いにくい。 RCNP側にも Linuxのフロントエンドが欲しい。

3. いままでの細かく更新された内容(クォーターコマンド、バッファーサイズ( F_SETBU )などに関すること)を、どこかにまとめて欲しい。現状では、以前にメールで流れた情報を探すのに苦労する。また、新参者はそもそもわからない。(たとえば、 CMC ノードにある“ osirase”コマンドは便利。)

4. 日本語を理解しない外国人ユーザーについては?

Page 23: SX5@RCNP 超入門

次期コンピュータとしては

200TFLOPS欲しい

⇒ 次のステップへの計算のため