メインコンテンツまでスキップ

Amazon SageMaker で VantageCloud Lake の Teradata Jupyter Notebook デモを実行する方法

概要

このクイックスタートでは、AWS の AI/ML プラットフォームである Amazon SageMaker で VantageCloud Lake の Jupyter Notebook デモを実行するプロセスについて詳しく説明します。

前提条件

AWS環境のセットアップ

このセクションでは、以下の各手順について詳しく説明します。

  • Teradata modules for JupyterをS3バケットにアップロードする
  • Jupyter ノートブック インスタンスの IAM ロールを作成する
  • Jupyter ノートブック インスタンスのライフサイクル構成を作成する
  • Jupyter ノートブック インスタンスを作成する
  • Jupyter ノートブック インスタンスの IP CIDR を検索する

Teradata modules for Jupyter を S3 バケットにアップロードする

  • AWS S3 でバケットを作成し、割り当てられた名前を記録する
  • このバケットにはデフォルトのオプションが適切です
  • 作成したバケットに Jupyter 用の Teradata モジュールをアップロードする S3バケットにモジュールをロードする

Jupyter ノートブック インスタンスの IAM ロールを作成する

  • SageMaker でロールマネージャに移動する 新しいロールを作成する
  • 新しいロールの作成する(まだ定義されていない場合)
  • このガイドの目的上、作成されたロールにはデータ サイエンティストのペルソナに割り当てる ロール名とペルソナ
  • 設定に関しては、デフォルトのままにするのが適切です
  • 対応する画面で、Teradata Jupyter モジュールをアップロードしたバケットを定義する S3 バケット
  • 次の設定では、S3 バケットへのアクセスに対応するポリシーを追加する
    S3 バケットの権限

Jupyter Notebooks インスタンスのライフサイクル構成を作成する

  • SageMaker でライフサイクル構成に移動し、作成をクリックする ライフサイクル構成を作成する

  • 次のスクリプトを使用してライフサイクル構成を定義する * Windows 環境で作業する場合は、スクリプトをライフサイクル構成エディターに 1 行ずつコピーすることをお勧めします。コピーの問題を回避するには、エディターで各行の後に「Enter」キーを直接押します。この方法は、Windows と Linux のエンコードの違いによって発生する可能性のあるキャリッジ リターン エラーを防ぐのに役立ちます。このようなエラーは、多くの場合、「/bin/bash^M: bad interpretation」として表示され、スクリプトの実行を妨げる可能性があります。 ライフサイクル構成を作成する

    • スクリプト作成時:

    • スクリプトの開始時 (このスクリプトではバケットの名前を置き換え、Jupyter モジュールのバージョンを確認します)

Jupyter ノートブック インスタンスを作成する

  • SageMaker で、ノートブック、ノートブック インスタンスに移動し、ノートブック インスタンスを作成する

  • ノートブックインスタンスの名前を選択し、サイズを定義する(デモの場合は、利用可能な小さいインスタンスで十分です)

  • 追加の構成をクリックし、最近作成したライフサイクル構成を割り当てます Notebookインスタンスを作成する

  • 追加の構成をクリックし、最近作成したライフサイクル構成を割り当てます

  • 先ほど作成したIAMロールをノートブックインスタンスに割り当てる IAM ロールをノートブック インスタンスに割り当てる

  • ノートブックインスタンスのデフォルトのgithubリポジトリとして、次のリンク https://github.com/Teradata/lake-demos を貼り付けます。 ノートブック インスタンスにデフォルトのリポジトリを割り当てる

Jupyter ノートブック インスタンスの IP CIDR を検索する

  • インスタンスが実行されたら、「JupyterLab を開く」をクリックします。 JupyterLabを開始する

    Loaded JupyterLab

  • JupyterLab で、Teradata Python カーネルを含むノートブックを開き、次のコマンドを実行してノートブック インスタンスの IP アドレスを見つけます。 ** 接続を許可するために、VantageCloud Lake 環境でこの IP をホワイトリストに登録します。 ** これは、このガイドとノートブックのデモの目的のためです。実稼働環境では、VPC、サブネット、セキュリティ グループの構成を構成し、ホワイトリストに登録する必要がある場合があります。

VantageCloud Lakeを構成する

  • VantageCloud Lake環境で、[設定]の下にノートブックインスタンスのIPアドレスを追加します。 JupyterLabを開始する

VantageCloud Lake の Jupyter Notebook デモ

構成

  • vars.json ファイルは、VantageCloud Lake 環境の構成に一致するように編集する必要がある JupyterLabを開始する

  • 特に次の値を追加する必要があります

    変数
    "host"VantageCloud Lake 環境からの Public IP値
    "UES_URI"VantageCloud Lake 環境からの Open Analytics
    "dbc"VantageCloud Lake 環境のマスター パスワード
    備考

    vars.json ファイル内のすべてのパスワードを必ず変更してください。

  • サンプル vars.json では、すべてのユーザーのパスワードがデフォルトで「password」に設定されていることがわかります。これは説明を目的としたものであり、これらのパスワード フィールドをすべて強力なパスワードに変更し、必要に応じて保護し、次の手順を実行する必要があります。 その他のパスワード管理のベスト プラクティス。

デモを実行する

環境を設定するには、0_Demo_Environment_Setup.ipynb内のすべてのセルを開いて実行します。続いて1_Demo_Setup_Base_Data.ipynbを実行して、デモに必要な基本データを読み込みます。

デモノートブックの詳細については、GitHub の Teradata Lake デモ ページをご覧ください。

まとめ

このクイックスタートでは、Amazon SageMaker で VantageCloud Lake の Jupyter ノートブック デモを実行する方法を学びました。

さらに詳しく

興味深い記事