スーパーコンピュータ「富岳」の...

12
スーパーコンピュータ「富岳」の 運用について 2020108日版 国立研究開発法人理化学研究所 計算科学研究センター 運用技術部門 1

Upload: others

Post on 25-Sep-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

スーパーコンピュータ「富岳」の運用について

2020年10月8日版

国立研究開発法人理化学研究所計算科学研究センター 運用技術部門

1

Page 2: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

2

計算ラック数 432ラック 計算ノード数 158,976ノード

バッチジョブで利用(会話型ジョブも利用可) 計算ノードの仕様は以下を参照

https://www.r-ccs.riken.jp/jp/fugaku/overview.html

ネットワーク TofuD (28Gbps x 2 lanes x 10 ports) 6次元メッシュ/トーラス(物理構成) 3次元トーラス(論理構成)

ユーザは1,2,3次元のノード指定が可能

ストレージ 第1階層

第2階層ファイルシステムのキャッシュ テンポラリーファイルシステム

- 計算ノードのローカルファイルシステム- ジョブ内の共有ファイルシステム

第2階層 FEFS:Lustreベースのファイルシステム 5 TiB / group (初期値:申請で拡大可能)

第3階層 商用クラウドストレージ(準備中)

「富岳」のシステム構成について

Page 3: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

3

全体構成

Page 4: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

4

利用環境

ハードウェア構成

ソフトウェア構成

台数 仕様

計算ノード 158,976ノード

Compute node(A64FX x1, MEM:32GB)

ログインノード(Intel) 台数未定 PRIMERGY RX2540

(Xeon (2.8GHz/16cores) x2, MEM:96GB)

ログインノード(Arm) 台数未定 ARM Server

(ThunderX2 (CN9980 2.2GHz/32cores) x2, MEM:256GB)

プリポストノード 台数未定 大容量メモリ搭載ノード,GPGPU搭載ノードなどを提供予定

第2階層 - 150PiB

台数 仕様

計算ノード 158,976ノード

OS : RHEL 8 / McKernelMPI : Fujitsu MPI (Based on OpenMPI), RIKEN-MPICH (Based on MPICH)Technical Computing Suite V4.0

ログインノード(Intel) 台数未定

RHEL 7.6 (現時点の版数)Technical Computing Suite V4.0Intel Parallel Studio XE

ログインノード(Arm) 台数未定 CentOS 7.6 (現時点の版数)

Arm Allinea Studio Essential

第2階層 - FEFS

OSS - Spackで随時提供予定

Page 5: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

5

ストレージ構成 第1階層

LLIOを用いて利用します(アプリの改変は不要) 1.6TiB/16 nodes 第2階層ファイルシステムのキャッシュ テンポラリーファイルシステム

- 計算ノードのローカルファイルシステム- ジョブ内の共有ファイルシステム

第2階層 初期値:5TiB / group (unlimited / user)

領域を拡大する場合は別途申請をお願いします ディレクトリ構成

ホーム領域:/home/groupname/username データ領域:/data/groupname/ (/home/groupname/data)

利用状況の確認方法 accountd コマンドを利用します

注意事項 システム側でバックアップは行いません.必要なデータは各自でバックアップをお願いします

第3階層 商用クラウドストレージ(準備中)

Page 6: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

6

提供機能 (1/4) 提供機能 (概要) コンパイル機能(富士通コンパイラ – クロスコンパイラ)

Fortran- 規格:2003, 2008, 2018※- 自動並列- OpenMP (3.1, 4.0, 4.5※, 5.0※)

C- 規格:C99, C11,GNU拡張機能,Clang互換- 自動並列- OpenMP (3.1, 4.0※, 4.5※, 5.0※)

C++- 規格:C++11, C++14, C++17,GNU拡張機能,Clang互換- 自動並列 (trad)- OpenMP (3.1, 4.0※, 4.5※, 5.0※)

MPI- 規格:MPI3.1 準拠

※一部機能のサポート

開発環境,運用ソフトウェア等は開発中の版のため,共用開始時点で機能変更が発生する場合があります

Page 7: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

7

提供機能 (2/4) 提供機能 (概要) 数学ライブラリ

BLAS(1998-07-03版以上):Level 1,2,3 CBLAS(2/23/03版以上):Level 1,2,3 LAPACK 3.5.0以上 PLASMA 2.7.1以上 ScaLAPACK 2.0.2以上 SSL II :SSLII, dm_vranus5, FFT, 分散並列FFT

プログラム開発支援ソフトウェア Eclipse(プラグイン,ジョブシステム連携,システムモニタリング機能,性能プロファイル情報表示機能等)

デバッガ(デッドロック調査機能,異常終了調査機能,デバッガ制御機能等) プロファイラ

- 基本プロファイラ,詳細プロファイラ- CPU性能解析レポート(単体・簡易・標準・詳細レポート)

ジョブ実行機能

開発環境,運用ソフトウェア等は開発中の版のため,共用開始時点で機能変更が発生する場合があります

Page 8: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

8

提供機能 (3/4) OSS(概要)

現時点ではmodulefileで提供(富士通コンパイラで作成)(今後はOSSは全てSpackで提供)富士通コンパイラで作成 OpenJDK 11 Python

- Python 3.6.8, NumPy 1.14.3, SciPy 1.0.0, mpi4py 3.0.2- Python 2.7.15, NumPy 1.14.2, SciPy 1.0.0, mpi4py 3.0.2- 富士通製BLAS, LAPACKが使用できるNumPy, SciPy

Ruby 2.6.5 OpenMPIで提供されているJavaバインディング LLVM 7.0.1以上

Spack 米Exascale Computing Project (ECP) が採用するHPC向けソフトウェア管理ツール 提供済みOSSリストの一部(最適化未実施のものも含む)

ログインノード

名称 Ver.

gcc 10.1.0

libxml2 2.9.10

lmod 8.3

openjdk 11.0.2

py-pip 19.3

screen 4.6.2

名称 Ver.adios2 2.6.0

bcftools 1.10.2bedtools2 2.27.1

boost 1.73.0cblas 2015-06-06

cmake 3.17.3fftw 3.3.8

gromacs 2020.2hdf5 1.10.6

htslib 1.10.2

名称 Ver.openjdk 11.0.0-2020-01-01

parallel-netcdf 1.12.1parmetis 4.0.3

picard 2.20.8py-dask 2.16.0py-h5py 2.10.0

py-jupyterhub 1.0.0py-keras 2.2.4

py-mpi4py 3.0.3py-netcdf4 1.5.3

名称 Ver.kokkos 3.1.01

lammps 20200505metis 5.1.0

netcdf-c 4.7.3netcdf-cxx 4.2

netcdf-cxx4 4.3.1netcdf-fortran 4.5.2

netlib-scalapack 2.1.0openblas 0.3.10

openfoam 2006

名称 Ver.py-pysam 0.15.2

py-scikit-learn 0.23.1py-scipy 1.5.1

py-seaborn 0.9.0py-xarray 0.14.0

r 4.0.2samtools 1.10

screen 4.6.2star 2.7.0e

tmux 3.0a

計算ノード

Page 9: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

9

提供機能 (4/4) 提供予定の理研開発ソフトウェア (概要) 数学ライブラリ

EigenExa, Kevd, Batched BLAS, 2.5D-PGEMM DSL

FDPS : Framework for Developing Particle Simulators 並列プログラミング言語

XMP : XcalableMP 通信ライブラリ

RIKEN-MPICH : MPICH-based MPI for Fugaku ファイルIO

DTF:Data Transfer Framework (Coupler Software) 軽量OSカーネル

McKernel

理研開発ソフトウェアは現時点で開発中であり,利用可能になり次第アナウンスします

Page 10: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

10

ジョブの実行環境 (スケジューラの設定)共用運用でのリソースグループの構成や利用実績の計算式等は現在検討中です.参考までに,共用前評価環境でのリソースグループ構成は以下のとおりです.

resource groupname

# of nodes(min. / max.)

Shape(1/2/3D)

# of concurrency

Max. Time Limit (min.) Remarks

eap-large 385/27,6481:27,648

2:144x1923:48x12x48

unlimited 600

eap-small 1/3841:384

2:12x323:4x6x16

unlimited 600

eap-int 1/121:122:6x2

3:2x3x2unlimited 360 Interactive job only.

# of concurrency submit limit: 3 Jobs/User

参考)共用前評価環境でのリソースグループ構成

Page 11: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

11

利用手順 環境

インターネットから直接ログイン(ssh)します バッチジョブ、会話型ジョブを利用できます

利用イメージ メールで配布された証明書を使用してユーザポータルにアクセスします

ユーザポータルから公開鍵を登録します

ログインノード(Intel)にsshでログインします ログインノード(Arm)には直接ログインできません.ログインノード(Intel)にログインした後にsshでログインしてください. ログインノード(Intel)にログイン後は、ほかのログインノードにログインする際に認証は必要ありません (hostbased authorization)

富岳向けのコンパイルはログインノード(Intelのみ)で実施します (クロスコンパイラ) 会話型ジョブで計算ノード上でコンパイルすることもできます(オウンコンパイラ)

ジョブの投入はログインノード(Intel)から実施します バッチジョブのスケジューリングは原則FCFS(受付順にスケジューリング)です ノード利用効率を改善するため,隙間がある場合は後から投入されたジョブが,先に投入されたジョブよりも早い時間にスケジューリングされ

ます(バックフィル スケジューリング)

計算資源の利用状況は accountj コマンドで確認します

通信制限 ログインノード(Intel, Arm) ー インターネット間の通信に制限はありません 計算ノード ー ログインノード(Intel, Arm),インターネット間の通信に制限はありません

Page 12: スーパーコンピュータ「富岳」の 運用について...スーパーコンピュータ「富岳」の 運用について 2020 年 9 月 24 日版 国立研究開発法人理化学研究所

12

その他 富岳ユーザブリーフィング(開催頻度:月1程度) 最新の運用情報の提供や意見交換 Web会議で開催

問い合わせ先 (対応時間は原則として平日9:00-17:20) 窓口のメールアドレス

HPCI課題 :[email protected] それ以外 :[email protected]

富岳ユーザポータル (https://www.fugaku.r-ccs.riken.jp) ドキュメントの提供(利用手引き,マニュアル,チュートリアル,講習会資料 等)※上記ドキュメントは,「富岳」の利用者向け資料であるとともに,安全保障輸出管理の対象となります.取扱には十分ご注意ください.

「富岳」に関する情報の掲示 運用スケジュール,障害情報,更新情報,etc.