Amazon SageMaker で VantageCloud Lake の Teradata Jupyter Notebook デモを実行する方法
概要
このクイックスタートでは、AWS の AI/ML プラットフォームである Amazon SageMaker で VantageCloud Lake の Jupyter Notebook デモを実行するプロセスについて詳しく説明します。
前提条件
- Teradata modules for Jupyter (ダウンロードはこちら 、登録が必要です)
- S3 および SageMaker にアクセスできる AWS アカウント
- VantageCloud Lake環境へのアクセス
AWS環境のセットアップ
このセクションでは、以下の各手順について詳しく説明します。
- Teradata modules for JupyterをS3バケットにアップロードする
- Jupyter ノートブック インスタンスの IAM ロールを作成する
- Jupyter ノートブック インスタンスのライフサイクル構成を作成する
- Jupyter ノートブック インスタンスを作成する
- Jupyter ノートブック インスタンスの IP CIDR を検索する
Teradata modules for Jupyter を S3 バケットにアップロードする
- AWS S3 でバケットを作成し、割り当てられた名前を記録する
- このバケットにはデフォルトのオプションが適切です
- 作成したバケットに Jupyter 用の Teradata モジュールをアップロードする
Jupyter ノートブック インスタンスの IAM ロールを作成する
- SageMaker でロールマネージャに移動する
- 新しいロールの作成する(まだ定義されていない場合)
- このガイドの目的上、作成されたロールにはデータ サイエンティストのペルソナに割り当てる
- 設定に関しては、デフォルトのままにするのが適切です
- 対応する画面で、Teradata Jupyter モジュールをアップロードしたバケットを定義する
- 次の設定では、S3 バケットへのアクセスに対応するポリシーを追加する
Jupyter Notebooks インスタンスのライフサイクル構成を作成する
-
SageMaker でライフサイクル構成に移動し、作成をクリックする
-
次のスクリプトを使用してライフサイクル構成を定義する * Windows 環境で作業する場合は、スクリプトをライフサイクル構成エディターに 1 行ずつコピーすることをお勧めします。コピーの問題を回避するには、エディターで各行の後に「Enter」キーを直接押します。この方法は、Windows と Linux のエンコードの違いによって発生する可能性のあるキャリッジ リターン エラーを防ぐのに役立ちます。このようなエラーは、多くの場合、「/bin/bash^M: bad interpretation」として表示され、スクリプトの実行を妨げる可能性があります。
-
スクリプト作成時:
-
スクリプトの開始時 (このスクリプトではバケットの名前を置き換え、Jupyter モジュールのバージョンを確認します)
-
Jupyter ノートブック インスタンスを作成する
-
SageMaker で、ノートブック、ノートブック インスタンスに移動し、ノートブック インスタンスを作成する
-
ノートブックインスタンスの名前を選択し、サイズを定義する(デモの場合は、利用可能な小さいインスタンスで十分です)
-
追加の構成をクリックし、最近作成したライフサイクル構成を割り当てます
-
追加の構成をクリックし、最近作成したライフサイクル構成を割り当てます
-
先ほど作成したIAMロールをノートブッ クインスタンスに割り当てる
-
ノートブックインスタンスのデフォルトのgithubリポジトリとして、次のリンク https://github.com/Teradata/lake-demos を貼り付けます。
Jupyter ノートブック インスタンスの IP CIDR を検索する
-
インスタンスが実行されたら、「JupyterLab を開く」をクリックします。
-
JupyterLab で、Teradata Python カーネルを含むノートブックを開き、次のコマンドを実行してノートブック インスタンスの IP アドレスを見つけます。 ** 接続を許可するために、VantageCloud Lake 環境でこの IP をホワイトリストに登録します。 ** これは、このガイドとノートブックのデモの目的のためです。実稼働環境では、VPC、サブネット、セキュリティ グループの構成を構成し、ホワイトリストに登録する必要がある場合があります。
VantageCloud Lakeを構成する
- VantageCloud Lake環境で、[設定]の下にノートブックインスタンスのIPアドレスを追加します。
VantageCloud Lake の Jupyter Notebook デモ
構成
-
vars.json ファイルは、VantageCloud Lake 環境の構成に一致するように編集する必要がある
-
特に次の値を追加する必要があります
変数 値 "host" VantageCloud Lake 環境からの Public IP値 "UES_URI" VantageCloud Lake 環境からの Open Analytics "dbc" VantageCloud Lake 環境のマスター パスワード 備考vars.json ファイル内のすべてのパスワードを必ず変更してください。
-
サンプル vars.json では、すべてのユーザーのパスワードがデフォルトで「password」に設定されていることがわかります。これは説明を目的としたものであり、これらのパスワード フィールドをすべて強力なパスワードに変更し、必要に応じて保護し、次の手順を実行する必要があります。 その他のパスワード管理のベスト プラクティス。
デモを実行する
環境を設定するには、0_Demo_Environment_Setup.ipynb内のすべてのセルを開いて実行します。続いて1_Demo_Setup_Base_Data.ipynbを実行して、デモに必要な基本データを読み込みます。
デモノートブックの詳細については、GitHub の Teradata Lake デモ ページをご覧ください。
まとめ
このクイックスタートでは、Amazon SageMaker で VantageCloud Lake の Jupyter ノートブック デモを実行する方法を学びました。