VantageからSageMakerのAPIを実行する方法
概要
このハウツーは、Amazon SageMaker と Teradata Vantage を統合するのに役立ちます。このガイドで説明するアプローチは、サービスと統合するための多くの潜在的なアプローチの 1 つです。
Amazon SageMaker は、完全に管理された機械学習プラットフォームを提供します。Amazon SageMaker と Teradata には 2 つの使用例があります。
1. データは Teradata Vantage 上に存在し、Amazon SageMaker はモデル定義とその後のスコアリングの両方に使用さ れます。このユースケースでは、Teradata は Amazon S3 環境にデータを提供し、Amazon SageMaker がモデル開発の目的でトレーニングおよびテストデータセットを使用できるようにします。さらに、Teradata は Amazon S3 経由でデータを利用できるようにします。このデータは、Amazon SageMaker によるその後のスコアリングに使用されます。このモデルでは、Teradata はデータリポジトリのみです。
2. データは Teradata Vantage 上に存在し、Amazon SageMaker はモデル定義に使用され、Teradata はその後のスコアリングに使用されます。このユースケースでは、Teradata は Amazon S3 環境にデータを提供し、Amazon SageMaker はモデル開発の目的でトレーニングおよびテストデータセットを利用できるようになります。Teradata は、その後の Teradata Vantage によるスコアリングのために、Amazon SageMaker モデルを Teradata テーブルにインポートする必要があります。このモデルでは、Teradata はデータリポジトリおよびスコアリングエンジンです。
このドキュメントでは、最初のユースケースについて説明します。
Amazon SageMaker は、Amazon S3 バケットからトレーニング データとテスト データを使用します。この記事では、Teradata 分析データセットを Amazon S3 バケットにロードする方法について説明します。その後、Amazon SageMaker でデータを使用して機械学習モデルを構築およびトレーニングし、実稼働環境にデプロイすることができます。
前提条件
- Teradata Vantageインスタンスへのアク セス。
注記
Vantage のテストインスタンスが必要な場合は、 https://clearscape.teradata.com で無料でプロビジョニングできます
- Amazon S3 バケットにアクセスし、Amazon SageMaker サービスを使用するための IAM 権限。
- トレーニングデータを保存するための Amazon S3 バケット。
データのロード
Amazon SageMaker は、Amazon S3 バケットからデータをトレーニングします。Vantage から Amazon S3 バケットにトレーニング データをロードする手順は次のとおりです。
1. Amazon SageMaker コンソールにアクセスし、ノートブックインスタンスを作成し ます。ノートブックインスタンスの作成方法については、 Amazon SageMaker 開発者ガイド を参照してください:
Notebookのインスタンスを開きます。
-
New -> conda_python3
をクリックして新規ファイルを起動します。 -
Teradata Pythonライブラリをインストールします。
-
新しいセルに追加のライブラリをインポートします。
-
新しいセルで、Teradata Vantage に接続します。
<hostname>
、<database user name>
、<database password>
を Vantage 環境に合わせて置き換えます。 -
TeradataML DataFrame APIを使用して学習用データセットが存在するテーブルからデータを取得します。
-
ローカルファイルにデータを書き込みます。
-
Amazon S3にファイルをアップロードします。