MatsuLab. Lecture Note/sougouenshu2007
基本木曜日。月曜も研究室にいるので、質問があったら来てください。
11/1(木)15:00〜松岡先生からの研究室の予定
10/4
課題
渡したMPI仕様書を読んで、どういった通信関数があるか調べて簡単にまとめてくること。
主に一対一通信、集団通信の2グループに分かれるが、それぞれに多くの通信関数が提供されているので、関数の特徴をまとめてくること
ヒント
一対一通信
集団通信
10/11
課題確認
クイズ
MPIを使った並列プログラミング
基本
MPIアプリケーションと、サーバ・クライアント型アプリケーションの違い
MPIプログラムのサンプル
添付ファイル mpi_pi.c を参考。
このファイルはモンテカルロ法を用いてPIを計算する、本当に初歩的なMPIプログラム。
MPI関数もMPI_BcastとMPI_Reduceしか用いていず、1関数での通信量も高々4バイト。
mpi_pi.cのコンパイル&実行方法
$ mpicc -c mpi_pi.c $ mpicc -o mpi_pi mpi_pi.o -lm $ $ mpirun -np 2 -machinefile machines ./mpi_pi <- 実行
課題
その1 mpi_pi.cにおいて、定数N_POINTSや実行するプロセス数をさまざまに変化させて、実行時間を確認すること。
その2 以下の指示に従い「行列とベクトル積を行なうプログラム」を実装し、実行すること。 シングルプロセッサ用プログラムを用意してあるので、それを参考にして良い。
シングルプロセッサ用プログラムのコンパイル&実行方法
$ gcc -c vector.c <- vector.oが既に生成されていれば実行しなくても良い $ gcc -c mul_matrix.c $ gcc -o mul_matrix mul_matrix.o vector.o $ ./mul_matrix <- 実行
MPIプログラム(例 mpi_mm.c)のコンパイル方法
$ gcc -c vector.c <- vector.oが既に生成されていれば実行しなくても良い $ mpicc -c mpi_mm.c $ mpicc -o mpi_mm mpi_mm.o vector.o $ mpirun -np 4 -machinefile machines ./mpi_mm <- 実行
10/18
行列・ベクトル積
前回の行列・ベクトル積のMPIプログラムがまだ出来ていない場合はそちらを完成される。
N体問題
N体問題の基礎問題をMPIを用いてC言語で実装する。
N体問題では、N個の質点間における相互作用の力を解くことによって、例えば宇宙空間に散らばる惑星間の引力、物質を構成する分子間の引力のシミュレーション等を行なう。
末尾の参考文献に、N体問題を理解するためのオンラインデモと重力ゲームへのリンクを載せたのでそちらも参考に。
今回解いてもらうのはスパコンコンテスト2001で出題された問題である。 細かい問題の内容はこちらのページを参考。
MPIを用いていない、C言語だけで書かれたシングルプロセス用のプログラムとデータファイルを以下の場所に置いたので、自分の作業ディレクトリにコピーすること。
$ cd sougouenshu $ cp /home/takizawa/sougouenshu/n-body.tar.gz . <- 「.」を忘れない $ tar zxf n-body.tar.gz <- 圧縮ファイルの展開 $ cd n-body $ ls correct_data_0.c correct_data_1.c main.c problem.c random_generator.c
このプログラムは以下のようにコンパイル、実行できる。
$ gcc -c *.c <- 拡張子が「.c」のファイルを全てコンパイル $ gcc -o main *.o -lm <- 注1 $ ./main 0 <- 実行 注2
このページ末尾にもアップロードしたので、MACでダウンロードしてコンパイル・実行してみるとよい。
MPIで実装するにはmain関数だけを編集すればよい。以下のような手順でコンパイルすることになる。
$ gcc -c correct_data_0.c correct_data_1.c problem.c random_generator.c <- 最初の1回だけでよい $ mpicc -c main.c $ mpicc -o mpi_main *.o -lm $ mpirun -np 32 -machinefile machines ./mpi_main
ヒント
$ man 3 floor $ man 3 fflush
第3回の続き
行列・ベクトル積問題の補足
その1
/home/takizawa/sougouenshu 以下に「sample1.c」、「sample2.c」と言う名前でプログラム実装例を置いた。
sample1.cは行列データ送信時にMPI_Scatterを用いる実装で、sample2.cはそのまま全データをMPI_Bcastで送信するアホな実装。
どちらの実装も、行列・ベクトル積を行なう回数は同じ。
10000x10000行列で、800MBのサイズの問題である。
ためしに4プロセス(pad017 〜 pad020の4ノードを使用)で実行したところ、
sample1 | 10.406秒 |
sample2 | 61.827秒 |
となった。 計算処理を分割しただけでは不十分で、処理対象データの転送にも気を配らないと性能が出ないことが理解できると思う。
その2
sample1.cをプロセス数を1,2,4と変化させて実行したところ、次のよう実行時間が変化した。
1 | 2.914 |
2 | 4.994 |
4 | 10.406 |
計算処理を分割しているから、プロセス数を増やせば各プロセスが担当する計算が減るため実行時間も短くなるはず・・・だが、むしろ増えている。 この理由は、計算コストに対して通信コストが高すぎるため。 実際にMPIでプログラムを書くときには、大きな通信コストを払ってでも分割する価値のある問題かどうか考えてから書くべきである。
N体問題の課題をつづける
Naiveな実装例
ページ末尾に「nbody1.c」と言う名前で、N体問題のプログラムをMPIを使って並列化したサンプル実装をアップロードした。
アルゴリズムは前回の講義で説明したもので、C言語だけの実装との違いは、
だけであり、高々数行変更しただけである。 プロセス数を1,2,4,8と変化させた場合の問題1にかかった時間は以下のようになった。
プロセス数 | 時間(秒) |
1 | 209.641 |
2 | 105.682 |
4 | 53.038 |
8 | 26.851 |
プロセスを倍に増やすと、実行時間も半分になることが確認できる。
末尾添付のnbody1.cと同じものを松岡研マシン上に「/home/takizawa/sougouenshu/nbody1.c」として置いてある。 必要なら、以下のコマンドで各自のホームディレクトリにコピーして良い。
$ cp ~takizawa/sougouenshu/nbody1.c . <- 「.」を忘れない
さらなる改良
nbody1.cの場合、さらに以下のような改良が出来る。
プロセス数 | nbody1 | nbody2(α=2) |
2 | 105.682 | 12.171 |
4 | 53.038 | 7.033 |
8 | 26.851 | 4.285 |
その1
その2
作業には基本的にターミナルを使用する
$ ssh USERNAME@nimbus.titech.hpcc.jp
$ rsh pad017
$ scp mpi.c USERNAME@nimbus.titech.hpcc.jp:
PrestoIIIへのアクセス権は今期いっぱいしか与えられないので、第1ラウンドが終わった後、忘れないうちに以下の手続きに従い各自のデータをバックアップすること。
$ ssh USER@nimbus.titech.hpcc.jp
$ tar zcf sougouenshu.tar.gz sougouenshu
$ scp USER@nimbus.titech.hpcc.jp:sougouenshu.tar.gz .
$ tar zxf sougouenshu.tar.gz