グループ管理者向け情報

グループ管理者とは、グループコース、専用クラスタコースの管理を行う権限を持った人を指します。
初期設定では、グループ管理者はサービスコースの申請者となっています。また、サービスコースの申請者はグループ管理者を追加/変更することも可能です。追加/変更は利用者ポータル から申請してください。

グループ管理者は、グループを管理するためのコマンドを利用することができます。この管理者専用コマンドによって、グループメンバーやグループに割り当てられたキューやディスクを管理できます。

グループのメンバーは、利用者ポータル にログインすることで、メンバーの確認および追加/削除が可能です。

group_backup コマンドで、LARGEディスクスペースのバックアップの設定ができます。LARGEディスクスペースは、 /LARGE0/グループ名 ディレクトリと /LARGE1/グループ名 ディレクトリで構成されており、以下の2つの状態のどちらかを設定できます。

設定状態 /LARGE0/グループ名 /LARGE1/グループ名
バックアップ使用 Safe(バックアップあり) Backup (バックアップ先)
バックアップ未使用 Unsafe(バックアップなし) Unsafe(バックアップなし)

このうち、設定がSafe または Unsafeとなっているディスクを利用できます。

バックアップ設定の確認

対象とするグループは -g オプションで指定可能です。省略した場合は、コマンド実行時のカレントグループが対象となります。

$ group_backup -g gr19999 -l 
 Num  Filesystem             Status  Filesystem             Status
  1)  /LARGE0/gr19999  ... Safe    /LARGE1/gr19999    ... Backup <- バックアップ使用状態

バックアップ未使用に設定

$ group_backup -g gr19999 --unsafe 1
/LARGE0/gr19999: Safe   => UnSafe
/LARGE1/gr19999: Backup => UnSafe

バックアップ設定の確認(変更後)

$ group_backup -g gr19999 -l
 Num  Filesystem             Status  Filesystem             Status
  1)  /LARGE0/gr19999    ... UnSafe  /LARGE1/gr19999    ... UnSafe  <- バックアップ未使用状態

バックアップ使用状態に戻す

$ group_backup -g gr19999 --safe 1
/LARGE0/gr19999: Unsafe => Safe
/LARGE1/gr19999: Unsafe => Backup

group_trash コマンドで、LARGEディスクスペースにあるファイルを削除(ゴミ箱へ移動)することができます。卒業などでいなくなった利用者のファイルなど、ファイルオーナーが存在しないファイルなどを削除することができます。もし誤って削除してしまった場合はゴミ箱から復元できますが、ゴミ箱は毎週月曜日に空になりますので注意してください。

group_trashコマンドで削除

対象とするグループを -g オプションで指定してください。省略した場合は、コマンド実行時のカレントグループでグループ管理者の権限を判定します。

$ group_trash -g gr19999 /LARGE0/gr19999/file1 
file1 to Trash (/LARGE0/gr19999/.DpcTrash/b59999/2009-04-10_1010)

Slurmのキューの権限の管理の単位として、ユーザとグループの2種類があります。ユーザは初期設定では空にしており、 グループには初期設定としてキュー名に対応するグループが最初から登録されています。

複数のグループでキューを利用する場合や、グループに所属していない単一の利用者に対してキューの利用権限を付与したいと いったご要望がありましたら、問い合わせフォーム より お問い合わせ下さい。

本センターのジョブスケジューリングポリシーは、以下の3種類から選択することができます。 個別キュー(grXXXXXx)をご契約いただいている場合は、 申請者の方から、問い合わせフォーム へ ご希望のスケジューリングポリシーをご連絡いただくことで、変更することが可能です。 (エントリコースやパーソナルコースなどの共有キューについては、ご希望をお受けすることはできません)

設定値 動作
pass あるジョブを実行するのに十分な計算資源がある場合、そのジョブよりも前に並んでいる実行待ちジョブを追い越して実行する。
効率的に計算資源を利用できるが、大規模なジョブがいつまでも実行されない可能性が生じる。【初期設定値】
wait 計算資源に空きがある場合でも、ジョブ間の追越しは発生しない。
backfill 各ジョブの実行時間制限(-t)をもとに計算を行い、他のジョブの実行開始時刻に影響を及ぼさない場合のみ、追越しが発生する。たとえば、大規模ジョブが開始されるまでの間に実行を完了できる小さなジョブを走らせることで資源を有効活用できる。

spadmin コマンドを用いることで、グループ管理者として登録されているキューのジョブ実行状況の確認、ジョブのキャンセルを行うことができます。

  • ジョブの実行状況の確認

    $ spadmin list -p gr19999b ## gr19999bの部分は確認したいキュー名に変更してください.
             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
              4781  gr19999b run_cpu2   b59999  R    1:26:09      1 nb0001
  • ジョブのキャンセル

    $ spadmin cancel 123
    scancel: Terminating job 123

なお、グループ管理者以外が spadmin コマンドを実行した場合は、以下のようなエラーが出力されます。

$ spadmin list -p gr19999g
Authorization Failure