メインコンテンツまでスキップ

Teradata Parallel Transporter(TPT)を使用した巨大なデータのバルクロード

概要

大量のデータを Vantage に移動する必要が生じることがよくあります。Teradata は、大量のデータを効率的に Teradata Vantage にロードできる Teradata Parallel Transporter (TPT) ユーティリティを提供しています。このハウツーでは、 TPTの使用方法を説明します。このシナリオでは、30 万件を超えるレコード、つまり 40 MB を超えるデータを数秒でロードします。

前提条件

  • Teradata Vantageインスタンスへのアクセス。

    注記

    Vantage のテストインスタンスが必要な場合は、 https://clearscape.teradata.com で無料でプロビジョニングできます

  • Teradata Tools and Utilities (TTU) をダウンロード - サポートされているプラットフォーム: Windows, MacOS, Linux (登録が必要です).

TTUのインストール

Run in Powershell: bash Unzip the downloaded file and run `setup.exe`.

サンプルデータを入手する

私たちは、非営利団体の米国納税申告書を扱います。非営利団体の納税申告書は公開データです。米国国税庁はそれを S3 バケットで公開しています。2020 年の申告書の概要を取得しましょう: https://storage.googleapis.com/clearscape_analytics_demo_data/TPT/index_2020.csv。ブラウザ、 wget 、または curl を使用してファイルをローカルに保存できます。

データベースを作成する

Vantage でデータベースを作成しましょう。お気に入りの SQL ツールを使用して、次のクエリーを実行します。

TPT を実行する

ここで TPTを実行します。 TPT は、 Teradata Vantage でデータのロード、抽出、更新に使用できるコマンドライン ツールです。これらのさまざまな機能は、いわゆる operatorsに実装されています。たとえば、Vantage へのデータのロードは Load 演算子によって処理されます。 Load 演算子は、大量のデータを Vantage にアップロードするのに非常に効率的です。 Load 演算子には、高速化のためにいくつかの制限があります。空のテーブルにのみデータを入力できます。すでにデータが入力されているテーブルへの挿入はサポートされていません。セカンダリ インデックスを持つテーブルはサポートされていません。また、テーブルが MULTISET テーブルであっても、重複レコードは挿入されません。制限の完全なリストについては Teradata® TPT リファレンス - ロード演算子 - 制限と制約、を参照してください。

TPT には独自のスクリプト言語があります。この言語を使用すると、任意の SQLコマンドを使用してデータベースを準備し、入力ソースを宣言し、Vantage にデータを挿入する方法を定義できます。

CSV データを Vantage にロードするには、ジョブを定義して実行します。ジョブはデータベースを準備します。古いログ テーブルとエラー テーブルを削除し、ターゲット テーブルを作成します。次に、ファイルを読み取り、データをデータベースに挿入します。

  • TPT に Vantage データベースへの接続方法を指示するジョブ変数ファイルを作成します。ファイル jobvars.txt を作成し、次のコンテンツを挿入します。 host をデータベースのホスト名に置き換えます。たとえば、ローカルの Vantage Express インスタンスを使用している場合は、 127.0.0.1を使用します。 username はデータベース ユーザー名、 password はデータベース パスワードです。準備ステップ (DDL) とロード ステップには独自の構成値があり、DDL とロード ステップの両方を構成するには構成値を 2 回入力する必要があることに注意してください。

  • 次の内容のファイルを作成し、 load.txtとして保存します。ジョブ ファイル内のコメントを参照して、その構造を理解してください。

  • ジョブを実行します:

    実行が成功すると、以下のようなログが返されます。

TPT とNOSの比較

この場合、ファイルは S3 バケットにあります。つまり、ネイティブ オブジェクト ストレージ (NOS) を使用してデータを取り込むことができます。

NOS ソリューションは、追加のツールに依存しないため便利です。SQL のみを使用して実装できます。NOS タスクが AMP に委任され、並列実行されるため、特に多数の AMP を備えた Vantage デプロイではパフォーマンスが優れています。また、オブジェクト ストレージ内のデータを複数のファイルに分割すると、パフォーマンスがさらに向上する可能性があります。

まとめ

このハウツーでは、大量のデータを Vantage に取り込む方法を示しました。 TPTを使用して、数十万件のレコードを数秒で Vantage に読み込みました。

さらに詳しく

注記

ご質問がある場合やさらにサポートが必要な場合は、 コミュニティフォーラム にアクセスしてサポートを受けたり、他のコミュニティ メンバーと交流したりしてください。

興味深い記事