« KEKからのお客さん | トップページ | バスのチケット »

2006.10.12

Oscar のインストール1

そこそこ規模の大きな計算をする際、当然1台のPCでは間に合わず、複数台用意して計算することになる。
用いるPCの台数が増えてくると、インストールの手間が増え、計算をさせる際にも、手の空いているPCを把握してプログラムの実行を割り振るのが厄介になってくる。で、今回は、1台(サーバ)+8台(ノード)を管理するお話。

多数のPCを用いて計算を行う際の手間を軽減させるために、Oscar という管理システムを用いた。これは、インストールの作業やその後のプログラム実行の割り振りなどを手助けしてくれるもので、無料で用いることが出来る。9台のPCのために、わざわざそのような管理プログラムが必要なのかというと、微妙なところ。無くても何とかなるが、あるととても便利だと思う。それに、これ以上PCの台数が増えると、Oscarのような管理システムは必須となるだろう。

Oscar 以外にも、同様のソフトはいくつかあると思う。Condor というのを使ったことがあるが、これはジョブ制御の機能だけだったかも知れない???
その中で、Oscar を選んだ理由は、単に前任者が中途半端にインストールしていったというだけである。

その前任者の中途半端なセットアップは、1-2日かけて調べたが不具合の原因が分からず、結局 Oscar を再インストールすることにした。Oscar のインストール自体はマニュアル通りで、それほど難しくは無いのだが、私の利用目的に合わせていくつか追加でプログラムをインストールさせたり、ノードPCのディスクを他と共有させたりする設定をしていると1日かかってしまった。

それでも、1日がかりで動くようになればよいが、インストールチェックをさせると、Ganglia という各PCをモニターするためのプログラムが正常に働いていないとエラーが出た。
エラーメッセージで指摘されている gmond は稼動しているのを確認したし、ネットワークも特に問題ないはず。

原因は、まだ分からない。とりあえず、今日は寝る。

Client nodes: node1.localdomain node2.localdomain node3.localdomain node4.localdomain node5.localdomain node6.localdomain node7.localdomain node8.localdomain Match pattern: cl.localdomain| Number of hosts matched: 3 Gstat output: CLUSTER INFORMATION Name: OSCAR Cluster Hosts: 9 Gexec Hosts: 0 Dead Hosts: 0 Localtime: Thu Oct 12 01:44:20 2006

CLUSTER HOSTS
Hostname LOAD CPU Gexec
CPUs (Procs/Total) [ 1, 5, 15min] [ User, Nice, System, Idle]

node8.localdomain
1 ( 0/ 49) [ 0.00, 0.00, 0.00] [ 13.9, 0.0, 2.2, 78.4] OFF
node7.localdomain
1 ( 0/ 45) [ 0.00, 0.00, 0.00] [ 1.3, 0.0, 0.6, 97.6] OFF
node6.localdomain
1 ( 2/ 51) [ 0.00, 0.01, 0.00] [ 1.2, 50.5, 40.2, 0.0] OFF
node4.localdomain
1 ( 0/ 44) [ 0.00, 0.07, 0.05] [ 1.2, 0.0, 0.7, 94.6] OFF
node3.localdomain
1 ( 0/ 55) [ 0.00, 0.02, 0.02] [ 1.3, 0.0, 0.6, 94.4] OFF
node2.localdomain
1 ( 0/ 55) [ 0.00, 0.01, 0.01] [ 1.2, 0.0, 0.6, 92.1] OFF
node1.localdomain
1 ( 0/ 55) [ 0.00, 0.00, 0.00] [ 1.4, 0.0, 0.5, 94.3] OFF
cl.localdomain
2 ( 1/ 184) [ 1.02, 1.04, 1.06] [ 52.4, 0.0, 0.8, 45.3] OFF
node5.localdomain
1 ( 0/ 45) [ 0.04, 0.09, 0.04] [ 1.3, 0.0, 0.6, 95.7] OFF

The number of nodes expected is different from the number of nodes detected.
Check to see if gmond is running on all your nodes and make sure that you
are not having any network issues.

|

« KEKからのお客さん | トップページ | バスのチケット »

パソコン・インターネット」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/1418/12250502

この記事へのトラックバック一覧です: Oscar のインストール1:

« KEKからのお客さん | トップページ | バスのチケット »