スーパーコンピュータ「富岳」の...
TRANSCRIPT
スーパーコンピュータ「富岳」の運用について
2020年10月8日版
国立研究開発法人理化学研究所計算科学研究センター 運用技術部門
1
2
計算ラック数 432ラック 計算ノード数 158,976ノード
バッチジョブで利用(会話型ジョブも利用可) 計算ノードの仕様は以下を参照
https://www.r-ccs.riken.jp/jp/fugaku/overview.html
ネットワーク TofuD (28Gbps x 2 lanes x 10 ports) 6次元メッシュ/トーラス(物理構成) 3次元トーラス(論理構成)
ユーザは1,2,3次元のノード指定が可能
ストレージ 第1階層
第2階層ファイルシステムのキャッシュ テンポラリーファイルシステム
- 計算ノードのローカルファイルシステム- ジョブ内の共有ファイルシステム
第2階層 FEFS:Lustreベースのファイルシステム 5 TiB / group (初期値:申請で拡大可能)
第3階層 商用クラウドストレージ(準備中)
「富岳」のシステム構成について
3
全体構成
4
利用環境
ハードウェア構成
ソフトウェア構成
台数 仕様
計算ノード 158,976ノード
Compute node(A64FX x1, MEM:32GB)
ログインノード(Intel) 台数未定 PRIMERGY RX2540
(Xeon (2.8GHz/16cores) x2, MEM:96GB)
ログインノード(Arm) 台数未定 ARM Server
(ThunderX2 (CN9980 2.2GHz/32cores) x2, MEM:256GB)
プリポストノード 台数未定 大容量メモリ搭載ノード,GPGPU搭載ノードなどを提供予定
第2階層 - 150PiB
台数 仕様
計算ノード 158,976ノード
OS : RHEL 8 / McKernelMPI : Fujitsu MPI (Based on OpenMPI), RIKEN-MPICH (Based on MPICH)Technical Computing Suite V4.0
ログインノード(Intel) 台数未定
RHEL 7.6 (現時点の版数)Technical Computing Suite V4.0Intel Parallel Studio XE
ログインノード(Arm) 台数未定 CentOS 7.6 (現時点の版数)
Arm Allinea Studio Essential
第2階層 - FEFS
OSS - Spackで随時提供予定
5
ストレージ構成 第1階層
LLIOを用いて利用します(アプリの改変は不要) 1.6TiB/16 nodes 第2階層ファイルシステムのキャッシュ テンポラリーファイルシステム
- 計算ノードのローカルファイルシステム- ジョブ内の共有ファイルシステム
第2階層 初期値:5TiB / group (unlimited / user)
領域を拡大する場合は別途申請をお願いします ディレクトリ構成
ホーム領域:/home/groupname/username データ領域:/data/groupname/ (/home/groupname/data)
利用状況の確認方法 accountd コマンドを利用します
注意事項 システム側でバックアップは行いません.必要なデータは各自でバックアップをお願いします
第3階層 商用クラウドストレージ(準備中)
6
提供機能 (1/4) 提供機能 (概要) コンパイル機能(富士通コンパイラ – クロスコンパイラ)
Fortran- 規格:2003, 2008, 2018※- 自動並列- OpenMP (3.1, 4.0, 4.5※, 5.0※)
C- 規格:C99, C11,GNU拡張機能,Clang互換- 自動並列- OpenMP (3.1, 4.0※, 4.5※, 5.0※)
C++- 規格:C++11, C++14, C++17,GNU拡張機能,Clang互換- 自動並列 (trad)- OpenMP (3.1, 4.0※, 4.5※, 5.0※)
MPI- 規格:MPI3.1 準拠
※一部機能のサポート
開発環境,運用ソフトウェア等は開発中の版のため,共用開始時点で機能変更が発生する場合があります
7
提供機能 (2/4) 提供機能 (概要) 数学ライブラリ
BLAS(1998-07-03版以上):Level 1,2,3 CBLAS(2/23/03版以上):Level 1,2,3 LAPACK 3.5.0以上 PLASMA 2.7.1以上 ScaLAPACK 2.0.2以上 SSL II :SSLII, dm_vranus5, FFT, 分散並列FFT
プログラム開発支援ソフトウェア Eclipse(プラグイン,ジョブシステム連携,システムモニタリング機能,性能プロファイル情報表示機能等)
デバッガ(デッドロック調査機能,異常終了調査機能,デバッガ制御機能等) プロファイラ
- 基本プロファイラ,詳細プロファイラ- CPU性能解析レポート(単体・簡易・標準・詳細レポート)
ジョブ実行機能
開発環境,運用ソフトウェア等は開発中の版のため,共用開始時点で機能変更が発生する場合があります
8
提供機能 (3/4) OSS(概要)
現時点ではmodulefileで提供(富士通コンパイラで作成)(今後はOSSは全てSpackで提供)富士通コンパイラで作成 OpenJDK 11 Python
- Python 3.6.8, NumPy 1.14.3, SciPy 1.0.0, mpi4py 3.0.2- Python 2.7.15, NumPy 1.14.2, SciPy 1.0.0, mpi4py 3.0.2- 富士通製BLAS, LAPACKが使用できるNumPy, SciPy
Ruby 2.6.5 OpenMPIで提供されているJavaバインディング LLVM 7.0.1以上
Spack 米Exascale Computing Project (ECP) が採用するHPC向けソフトウェア管理ツール 提供済みOSSリストの一部(最適化未実施のものも含む)
ログインノード
名称 Ver.
gcc 10.1.0
libxml2 2.9.10
lmod 8.3
openjdk 11.0.2
py-pip 19.3
screen 4.6.2
名称 Ver.adios2 2.6.0
bcftools 1.10.2bedtools2 2.27.1
boost 1.73.0cblas 2015-06-06
cmake 3.17.3fftw 3.3.8
gromacs 2020.2hdf5 1.10.6
htslib 1.10.2
名称 Ver.openjdk 11.0.0-2020-01-01
parallel-netcdf 1.12.1parmetis 4.0.3
picard 2.20.8py-dask 2.16.0py-h5py 2.10.0
py-jupyterhub 1.0.0py-keras 2.2.4
py-mpi4py 3.0.3py-netcdf4 1.5.3
名称 Ver.kokkos 3.1.01
lammps 20200505metis 5.1.0
netcdf-c 4.7.3netcdf-cxx 4.2
netcdf-cxx4 4.3.1netcdf-fortran 4.5.2
netlib-scalapack 2.1.0openblas 0.3.10
openfoam 2006
名称 Ver.py-pysam 0.15.2
py-scikit-learn 0.23.1py-scipy 1.5.1
py-seaborn 0.9.0py-xarray 0.14.0
r 4.0.2samtools 1.10
screen 4.6.2star 2.7.0e
tmux 3.0a
計算ノード
9
提供機能 (4/4) 提供予定の理研開発ソフトウェア (概要) 数学ライブラリ
EigenExa, Kevd, Batched BLAS, 2.5D-PGEMM DSL
FDPS : Framework for Developing Particle Simulators 並列プログラミング言語
XMP : XcalableMP 通信ライブラリ
RIKEN-MPICH : MPICH-based MPI for Fugaku ファイルIO
DTF:Data Transfer Framework (Coupler Software) 軽量OSカーネル
McKernel
理研開発ソフトウェアは現時点で開発中であり,利用可能になり次第アナウンスします
10
ジョブの実行環境 (スケジューラの設定)共用運用でのリソースグループの構成や利用実績の計算式等は現在検討中です.参考までに,共用前評価環境でのリソースグループ構成は以下のとおりです.
resource groupname
# of nodes(min. / max.)
Shape(1/2/3D)
# of concurrency
Max. Time Limit (min.) Remarks
eap-large 385/27,6481:27,648
2:144x1923:48x12x48
unlimited 600
eap-small 1/3841:384
2:12x323:4x6x16
unlimited 600
eap-int 1/121:122:6x2
3:2x3x2unlimited 360 Interactive job only.
# of concurrency submit limit: 3 Jobs/User
参考)共用前評価環境でのリソースグループ構成
11
利用手順 環境
インターネットから直接ログイン(ssh)します バッチジョブ、会話型ジョブを利用できます
利用イメージ メールで配布された証明書を使用してユーザポータルにアクセスします
ユーザポータルから公開鍵を登録します
ログインノード(Intel)にsshでログインします ログインノード(Arm)には直接ログインできません.ログインノード(Intel)にログインした後にsshでログインしてください. ログインノード(Intel)にログイン後は、ほかのログインノードにログインする際に認証は必要ありません (hostbased authorization)
富岳向けのコンパイルはログインノード(Intelのみ)で実施します (クロスコンパイラ) 会話型ジョブで計算ノード上でコンパイルすることもできます(オウンコンパイラ)
ジョブの投入はログインノード(Intel)から実施します バッチジョブのスケジューリングは原則FCFS(受付順にスケジューリング)です ノード利用効率を改善するため,隙間がある場合は後から投入されたジョブが,先に投入されたジョブよりも早い時間にスケジューリングされ
ます(バックフィル スケジューリング)
計算資源の利用状況は accountj コマンドで確認します
通信制限 ログインノード(Intel, Arm) ー インターネット間の通信に制限はありません 計算ノード ー ログインノード(Intel, Arm),インターネット間の通信に制限はありません
12
その他 富岳ユーザブリーフィング(開催頻度:月1程度) 最新の運用情報の提供や意見交換 Web会議で開催
問い合わせ先 (対応時間は原則として平日9:00-17:20) 窓口のメールアドレス
HPCI課題 :[email protected] それ以外 :[email protected]
富岳ユーザポータル (https://www.fugaku.r-ccs.riken.jp) ドキュメントの提供(利用手引き,マニュアル,チュートリアル,講習会資料 等)※上記ドキュメントは,「富岳」の利用者向け資料であるとともに,安全保障輸出管理の対象となります.取扱には十分ご注意ください.
「富岳」に関する情報の掲示 運用スケジュール,障害情報,更新情報,etc.