Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Update the OCI tutorilas:e5eb30d8d7f5235ce4c47c80bb394fc43c2b9c84 #483

Merged
merged 1 commit into from
Nov 18, 2024
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
25 changes: 12 additions & 13 deletions _pages/hpc.md
Original file line number Diff line number Diff line change
Expand Up @@ -86,14 +86,14 @@ HPC/機械学習ワークロードを実行する際に有益なテクニカル
- 構築手法

構築手法は、 **[マーケットプレース](#5-5-マーケットプレイス)** 提供の **[スタック](#5-3-スタック)** を使用する自動構築、予め用意された **[Terraform](#5-12-terraform)** スクリプトを使用する自動構築、及び **OCI** コンソールから各リソースを順次構築する手動構築に分かれ、それぞれ以下の利点・欠点があります。
なお、ここで紹介する自動構築(スタック)に分類されるチュートリアルの多くは、 **[HPCクラスタスタック](#5-10-hpcクラスタスタック)** を活用しています。
なお、ここで紹介する自動構築(**スタック**)に分類されるチュートリアルの多くは、 **[HPCクラスタスタック](#5-10-hpcクラスタスタック)** を活用しています。


| | 利点 | 欠点 | 備考 | |
| :-----------------: | ------------------------------------------------------------- | ------------------------------------------------- | --------------------------------------------------------------------------------------------------------------- | --- |
| 自動構築<br>(スタック) | ユーザの作業時間(※1)が短い<br>GUIによる操作(※2)が可能 | 構築手順のブラックボックス化<br> ・システム構成の変更が難しい<br> ・問題発生時原因究明難 | ※1)スタックメニュー選択の時間<br>※2) **OCI** コンソール | |
| 自動構築<br>(Terraform) | ユーザの作業時間(※3)が短い<br>CLI/GUI(※4)を選択可能 | Terraform実行環境(※5)が必要 | ※3)スタックメニュー選択の時間<br>or<br>Terraformスクリプト内変数修正<br>に要する時間<br>※4)Terraform CLI/ **OCI** コンソール<br>※5)Terraform CLIを選択した場合 | |
| 手動構築<br>( **OCI** コンソール) | 構築手順が明確<br> ・システム構成の変更が容易<br> ・問題発生時原因究明容易<br>GUIによる操作(※6)が可能 | ユーザの作業時間が長い | ※6) **OCI** コンソール操作 | |
| 自動構築<br>(**スタック**) | 構築作業時間(※1)が短い<br>GUI操作(※2)が可能 | 構築手順のブラックボックス化<br> ・システム構成の変更が難しい<br> ・問題発生時の原因究明が困難 | ※1)スタックメニュー選択の時間<br>※2) **OCI** コンソール | |
| 自動構築<br>(**Terraform**) | 構築作業時間(※3)が短い<br>CLI/GUI(※4)を選択可能 | **Terraform** 実行環境(※5)が必要 | ※3)スタックメニュー選択の時間<br>or<br>**Terraform** スクリプト内変数修正<br>に要する時間<br>※4)**Terraform** CLI/ **OCI** コンソール<br>※5)**Terraform** CLIを選択した場合 | |
| 手動構築<br>( **OCI** コンソール) | 構築手順が明確<br> ・システム構成の変更が容易<br> ・問題発生時原因究明容易<br>GUI操作(※6)が可能 | 構築作業時間が長い | ※6) **OCI** コンソール操作 | |



Expand Down Expand Up @@ -124,9 +124,9 @@ HPC/機械学習ワークロードを実行する際に有益なテクニカル
| チュートリアル名 | 構築手法 | クラスタ<br>管理機能 | スタティック/<br>オンデマンド | 計算ノードOS |
| :-------------------------------------------------------------------------------------------: | :-----------------: | :----------: | :---------------: | :--------------------: |
| **[HPCクラスタを構築する<br>(基礎インフラ手動構築編)](/ocitutorials/hpc/spinup-cluster-network/)** | 手動構築 | 無し | スタティック | **Oracle Linux** 7.9/8 |
| **[HPCクラスタを構築する<br>(基礎インフラ自動構築編)](/ocitutorials/hpc/spinup-hpc-cluster-withterraform/)** | 自動構築<br>(Terraform CLI<br>/スタック) | 無し | スタティック | **Oracle Linux** 7.9/8 |
| **[HPCクラスタを構築する<br>(スタティッククラスタ自動構築編)](/ocitutorials/hpc/spinup-hpc-cluster)** | 自動構築<br>(スタック) | 有り | スタティック | **Oracle Linux** 7.9/8 |
| **[HPCクラスタを構築する<br>(オンデマンドクラスタ自動構築編)](/ocitutorials/hpc/spinup-hpc-cluster-withautoscaling)** | 自動構築<br>(スタック) | 有り | オンデマンド | **Oracle Linux** 7.9/8 |
| **[HPCクラスタを構築する<br>(基礎インフラ自動構築編)](/ocitutorials/hpc/spinup-hpc-cluster-withterraform/)** | 自動構築<br>(**Terraform** CLI/**スタック**) | 無し | スタティック | **Oracle Linux** 7.9/8 |
| **[HPCクラスタを構築する<br>(スタティッククラスタ自動構築編)](/ocitutorials/hpc/spinup-hpc-cluster)** | 自動構築<br>(**スタック**) | 有り | スタティック | **Oracle Linux** 7.9/8 |
| **[HPCクラスタを構築する<br>(オンデマンドクラスタ自動構築編)](/ocitutorials/hpc/spinup-hpc-cluster-withautoscaling)** | 自動構築<br>(**スタック**) | 有り | オンデマンド | **Oracle Linux** 7.9/8 |

## 1-2. 機械学習環境

Expand Down Expand Up @@ -169,9 +169,9 @@ HPC/機械学習ワークロードを実行する際に有益なテクニカル

## 1-3-2. バックアップ

ファイル共有ストレージのバックアップは、チュートリアル **[ベア・メタル・インスタンスNFSサーバ向けバックアップサーバを構築する](/ocitutorials/hpc/spinup-backup-server)** に従って構築するバックアップサーバで、 **Rclone** を使用して **オブジェクト・ストレージ** にバックアップすることが可能です。
ファイル共有ストレージのバックアップは、チュートリアル **[ベア・メタル・インスタンスNFSサーバ向けバックアップサーバを構築する](/ocitutorials/hpc/spinup-backup-server)** に従って構築するバックアップサーバで、容量単価の安価な **オブジェクト・ストレージ** **ブロック・ボリューム** の **より低いコスト** にバックアップすることが可能です。

バックアップを念頭に置いたファイル共有ストレージと **オブジェクト・ストレージ** 間のデータ転送手法の比較は、 **[OCI HPCテクニカルTips集](/ocitutorials/hpc/#3-oci-hpcテクニカルtips集)** の **[オブジェクト・ストレージを使用するバックアップツールの選択方法](/ocitutorials/hpc/tech-knowhow/howto-choose-osbackuptool/)** を参照してください。
ファイル共有ストレージのバックアップを念頭に置いたバックアップ環境構築手法の比較は、 **[OCI HPCテクニカルTips集](/ocitutorials/hpc/#3-oci-hpcテクニカルtips集)** の **[ファイル共有ストレージ向けバックアップ環境の最適な構築手法](/ocitutorials/hpc/tech-knowhow/howto-choose-osbackuptool/)** を参照してください。

## 1-4. チュートリアルを組み合わせた実践的HPCシステム構築

Expand Down Expand Up @@ -356,11 +356,10 @@ HPC/機械学習ワークロードを実行する際に有益なテクニカル
ただこの動的拡張は、 **OCI** コンソールやインスタンスOSで複数のオペレーションを実施する必要があり、ノード数が多くなるクラスタ環境の計算/GPUノードでは、これらのオペレーションを効率的に実施することが求められます。
本テクニカルTipsは、HPC/GPUクラスタの多数の計算/GPUノードに対し、 **ブート・ボリューム** の動的拡張を効率的に実施する方法を解説します。

- **[オブジェクト・ストレージを使用するバックアップツールの選択方法](/ocitutorials/hpc/tech-knowhow/howto-choose-osbackuptool/)**
- **[ファイル共有ストレージ向けバックアップ環境の最適な構築手法](/ocitutorials/hpc/tech-knowhow/howto-choose-osbackuptool/)**

HPC/GPUクラスタを運用する際必須となるファイル共有ストレージは、コストパフォーマンスを考慮すると **ベア・メタル・インスタンス** と **ブロック・ボリューム** 等のストレージサービスで構築することになりますが、このストレージをバックアップする場合そのバックアップ環境を独自に構築することになり、このバックアップを格納するストレージの有力な選択肢は、その安価な容量単価から **オブジェクト・ストレージ** が挙げられます。
この際のバックアップツールは、POSIXファイルシステムと **オブジェクト・ストレージ** 間の差分バックアップ機能を有していることが求められ、候補となるツールがいくつか存在します。
本テクニカルTipsは、ファイル共有ストレージのバックアップを **オブジェクト・ストレージ** に取得することを想定し、自身のバックアップ要件に沿ったツールを選択する方法を解説します。
HPC/GPUクラスタを運用する際必須となるファイル共有ストレージは、コストパフォーマンスを考慮すると **ベア・メタル・インスタンス** と **ブロック・ボリューム** 等のストレージサービスで構築することになりますが、そのバックアップ環境は自身で構築する必要があり、バックアップを格納するストレージはその安価な容量単価から **オブジェクト・ストレージ** や **ブロック・ボリューム** の **より低いコスト** が有力な選択肢になります。
本テクニカルTipsは、ファイル共有ストレージのバックアップを容量単価の安価なストレージに取得することを念頭に、自身のバックアップ要件に沿った最適なバックアップ環境構築手法を選定する方法を解説します。

## 3-3. クラスタ管理

Expand Down
2 changes: 1 addition & 1 deletion tutorials/_hpc/benchmark/topology-aware-cn-tuning.md
Original file line number Diff line number Diff line change
Expand Up @@ -96,7 +96,7 @@ $ diff slurm.conf_org slurm.conf
$
```

次に、以下コマンドをSlurmマネージャのopcユーザで実行し、先の **slurm.conf** の修正を反映します。ます。
次に、以下コマンドをSlurmマネージャのopcユーザで実行し、先の **slurm.conf** の修正を反映します。

```
$ sudo su - slurm -c "scontrol reconfigure"
Expand Down
Loading
Loading