open for smp cluster の survey
DESCRIPTION
Open for SMP Cluster の Survey. Talk by Shuhei Ohkado Email: [email protected]. なぜ SMP Cluster (の研究)か?. HPC using clusters of commodity hardware Cluster with fast network provide high performance equal to MPP Cost-effective parallel computing platform SMP Cluster 向けの HPC の研究の方向性. - PowerPoint PPT PresentationTRANSCRIPT
![Page 2: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/2.jpg)
なぜ SMP Cluster (の研究)か? HPC using clusters of commodity hardwar
e Cluster with fast network provide high per
formance equal to MPP Cost-effective parallel computing platform SMP Cluster 向けの HPC の研究の方向性
![Page 3: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/3.jpg)
なぜ OpenMP か? Emerging standard for parallel
programming on shared-memory multiprocessors
![Page 4: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/4.jpg)
OpenMP ってどんなの? 並列性を記述する指示文を追加 Fork-join 型
![Page 5: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/5.jpg)
OpenMP の利点 Incremental approach to parallelization o
f sequential program Portability Programming が容易
![Page 6: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/6.jpg)
OpenMP の directive Parallelism/work sharing Data environment synchronization
![Page 7: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/7.jpg)
これからの話 Hybrid Programming の紹介 Inserting Remote communication primiti
ve の紹介
![Page 8: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/8.jpg)
紹介する論文 吉川 茂洋 , 早川 秀利 , 近藤 正章 , 板倉 憲一 , 朴
泰祐 , 佐藤 三久 ,"SMP-PC クラスタにおける OpenMP+MPI の性能評価 ", 情報処理学会ハイパフォーマンスコンピューティング研究会 (HOKKE2000),2000-HPC-80-27, 2000, pp155-160.
M. Sato, S. Satoh, K. Kusano and Y. Tanaka, TsukubaResearch Center, Real World Computing Partnership, "Design of OpenMP Compiler for an SMP Cluster", First European Workshop on OpenMP - EWOMP’99, Lund University, Lund, Sweden, September 1999
![Page 9: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/9.jpg)
SMP-PC クラスタにおける OpenMP+MPI の性能評価 SMP Cluster のデザイン COSMO(Clusters of Symmetric MultiprOcessor)
ハイブリッドプログラミング OpenMP+MPI の問題点 ベンチマークアプリ 性能評価 まとめ
![Page 10: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/10.jpg)
SMP Cluster のデザイン 分散メモリ : ノード間でメッセージ
パッシング 共有メモリ : ノード内でマルチスレッ
ド
![Page 11: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/11.jpg)
COSMO の仕様 Intel Pentium-II Xeon(450MHz)x4 4ノード構成 100base-TX Ethernet Switch Linux 2.2.10 SMP
![Page 12: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/12.jpg)
ハイブリッドプログラミング OpenMP と MPI の混合
ノード内では OpenMP ノード間では MPI
Pthread+MPI のハイブリッドの論文もある
![Page 13: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/13.jpg)
ハイブリッドとメッセージパッシング統一型の比較 ハイブリッドプログラミング
プログラミング難しい 性能がより引き出せる
メッセージパッシング統一型 簡単なプログラミング MPI の豊富な資産
![Page 14: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/14.jpg)
OpenMP + MPI の問題点 並列領域内で MPI 関数がある場合排他
制御が必要 安全な通信のためにマスタースレッド
のみが通信
![Page 15: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/15.jpg)
アプリケーション Linpack
密行列連立一次方程式のガウス消去法 データの時間局所性が高い
CG NAS Parallel Benchmarks 大規模疎行列の最小固有値をの CG 法 データの時間局所性が低い
![Page 16: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/16.jpg)
性能評価 グラフ略 (~9つ) Full MPI版よりも OpenMP+MPI の方が速度向上が良い
Linpack 計算粒度を大きくしたら性能が良くなった
CG 速度低下はメモリバスの混雑による
![Page 17: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/17.jpg)
この論文のまとめ 並列化は容易だった OpenMP は標準 APIだから MPI とのハ
イブリッドも可搬性がある( really ?)
SMP クラスタではメモリバスボトルネックの問題解決が必要
![Page 18: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/18.jpg)
Design of OpenMP Compiler for an SMP Cluster Omni OpenMP Design for SMP Cluster Base DSM runtime Optimization COMPas Preliminary Result
![Page 19: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/19.jpg)
Omni Experimental compiler Translator: OpenMP->multithreaded C Linked with runtime library Java libraries that analyze & transform
![Page 20: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/20.jpg)
OpenMP Design for SMP Cluster Compiler-directed approach Runtime DSM library Structured parallel description of OpenM
P(higher)
![Page 21: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/21.jpg)
Extend OpenMP compiler Memory coherence maintenace code Insertion Compiler analysis
Efficient collective communication SMP cluster
fork & synchronize between different nodes Software implementation
Flexible cache coherence protocol
![Page 22: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/22.jpg)
Base DSM runtime system Mapping into same address Cache by multiple nodes Status bit Check code before load/store
![Page 23: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/23.jpg)
Optimization Parallel extent detection Redundant check code elimination Merging multiple check code (Data-parallel communication
optimization)
![Page 24: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/24.jpg)
COMPaS COMPaS
Cluster Of Multi-Processor Systems Eight 4-processor Pentium Pro(200MHz) Myrinet Solaris 2.5.1
NICAM User-level communication layer DMA
![Page 25: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/25.jpg)
Preliminary Result グラフ略 Jacobi over relaxation solver of dense m
atrix 21.76 speedup/32 node x thread
![Page 26: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/26.jpg)
Concluding Remarks Extend OpenMP for SMP Cluster Compiler-directed SDSM Optimization for the system Easy to program
Hide configuration of SMP Cluster
![Page 27: Open for SMP Cluster の Survey](https://reader035.vdocuments.mx/reader035/viewer/2022062422/56813af5550346895da377ef/html5/thumbnails/27.jpg)
全体のまとめ OpenMP on SMP Cluster の論文を読んだ
一方は MPI を利用、もう一方は Shasta-like
両者の性能評価の図を比べると、アプリケーションは異なるものの、前者よりも後者の方が速度向上が良い