Teradata VantageとGoogle Cloud Data Catalogを統合する
概要
この記事では、 Data Catalog Teradata Connector on GitHubを使用して Teradata VantageとGoogle Cloud Data Catalogを接続し、Data Catalog経由でVantageテーブルのメタデータを探索する手順について説明します。
- Scrape: Teradata Vantageに接続し、利用可能なすべてのメタデータを取得する
- Prepare: Data Catalogエンティティでメタデータを変換し、タグを作成する
- Ingest: Data CatalogエンティティをGoogle Cloudプロジェクトに送信する
Google Cloud Data Catalogについて
Google Cloud Data Catalog は、完全に管理されたデータ検出およびメタデータ管理サービスです。Data Catalog では、データアセットのネイティブ メタデータをカタログ化できます。Data Catalog はサーバーレスで、技術メタデータとビジネス メタデータの両方を構造化された形式でキャプチャするための中央カタログを提供します。
Teradata Vantage について
Vantageは、データウェアハウス、データレイク、アナリティクスを単一の接続されたエコシステムに統合する最新のクラウドプラットフォームです。
Vantageは、記述的分析、予測的分析、処方的分析、自律的意思決定、ML機能、可視化ツールを統合したプラットフォームで、データの所在を問わず、リアルタイムのビジネスインテリジェンスを大規模に発掘することが可能です。
Vantageは、小規模から始めて、コンピュートやストレージを弾力的に拡張し、使用した分だけ支払い、低コストのオブジェクトストアを活用し、分析ワークロードを統合することを可能にします。
Vantage は、R、Python、Teradata Studio、およびその他の SQL ベースのツールをサポートしています。Vantage は、パブリック クラウド、オンプレミス、最適化されたインフラストラクチャまたはコモディティ インフラストラクチャ、またはサービスとして導入できます。
Teradata Vantage の詳細については、 ドキュメントを参照してください。
前提条件
-
Teradata Vantageインスタンスへのアクセス。
-
Data Catalog 管理者ロールを持つ Google サービス アカウント
-
アカウント用に 作成されたCloud Consoleプロジェクト (例、partner-integration-lab)
-
課金が有効になっている
-
インストールされたPython
-
インストールされたPip
手順
- Data Catalog APIを有効にする
- Teradata Data Catalog コネクタをインストールする
- 実行する
- Teradata VantageのメタデータをData Catalogで探索する
Data Catalog APIを有効にする
- Google コンソールにログオンし、ナビゲーション メニューから APIs & Services を選択して、 _Library_をクリックします。上部のメニュー バーでプロジェクトが選択されていることを確認します。
-
検索ボックスに Data Catalog を入力し、 Google Cloud Data Catalog API をクリックし、 ENABLE をクリックします
Teradata Data Catalog コネクタをインストールする
Teradata Data Catalog コネクタは GitHubで利用できます。このコネクタは Python で記述されています。
-
以下のコマンドを実行し、gcloudを認証して、Googleのユーザー認証でCloud Platformにアクセスできるようにします。
-
Googleのログインページが開くので、Googleアカウントを選択し、次のページで Allow をクリックします。
-
次に、デフォルトプロジェクトの設定がまだの場合は設定します。
virtualenv をインストールする
Teradata Data Catalog コネクタは、分離されたPython環境にインストールすることをお勧めします。そのためには、まず virtualenv をインストールします。
-
Windows
Powershell で管理者として実行します。
-
MacOS
-
Linux
Data Catalog Teradataコネクタのインストール
-
Windows
-
MacOS
-
Linux
環境変数の設定
<google_credential_file>
には、サービスアカウントのキー(jsonファイル)を指定します。
Run
google-datacatalog-teradata-connector
コマンドを実行して、Vantage データベースへのエ ントリポイントを確立します。
google-datacatalog-teradata-connectorコマンドの出力例です。
Teradata VantageのメタデータをData Catalogで探索する
- Data Catalog コンソールに移動し、 Projectsの下のプロジェクト (つまり、partner-integration-lab) をクリックします。Teradata テーブルが右側のパネルに表示されます。
-
興味のあるテーブル (CITY_LEVEL_TRANS など) をクリックすると、このテーブルに関するメタデータが表示されます。
クリーンアップ (オプション)
-
データカタログからメタデータをクリーンアップします。そのためには、https://github.com/GoogleCloudPlatform/datacatalog-connectors-rdbms/blob/master/google-datacatalog-teradata-connector/tools/cleanup_datacatalog.py をローカル ディレクトリにコピーします。
-
このファイルがあるディレクトリに移動し、以下のコマンドを実行する。