Teradata Parallel Transporter（TPT）を使用した巨大なデータのバルクロード

概要

大量のデータを Vantage に移動する必要が生じることがよくあります。Teradata は、大量のデータを効率的に Teradata Vantage にロードできる Teradata Parallel Transporter (TPT) ユーティリティを提供しています。このハウツーでは、 TPTの使用方法を説明します。このシナリオでは、30 万件を超えるレコード、つまり 40 MB を超えるデータを数秒でロードします。

前提条件

Teradata Vantageインスタンスへのアクセス。

注記
Vantage のテストインスタンスが必要な場合は、 https://clearscape.teradata.com で無料でプロビジョニングできます
Teradata Tools and Utilities (TTU) をダウンロード - サポートされているプラットフォーム: Windows, MacOS, Linux (登録が必要です).

TTUのインストール

Windows
MacOS
Linux

Run in Powershell: bash Unzip the downloaded file and run `setup.exe`.

bash Unzip the downloaded file and run `TeradataToolsAndUtilitiesXX.XX.XX.pkg`.

Unzip the downloaded file, go to the unzipped directory and run: bash ./setup.sh a

サンプルデータを入手する

私たちは、非営利団体の米国納税申告書を扱います。非営利団体の納税申告書は公開データです。米国国税庁はそれを S3 バケットで公開しています。2020 年の申告書の概要を取得しましょう: https://storage.googleapis.com/clearscape_analytics_demo_data/TPT/index_2020.csv。ブラウザ、 wget 、または curl を使用してファイルをローカルに保存できます。

データベースを作成する

Vantage でデータベースを作成しましょう。お気に入りの SQL ツールを使用して、次のクエリーを実行します。

TPT を実行する

ここで TPTを実行します。 TPT は、 Teradata Vantage でデータのロード、抽出、更新に使用できるコマンドラインツールです。これらのさまざまな機能は、いわゆる operatorsに実装されています。たとえば、Vantage へのデータのロードは Load 演算子によって処理されます。 Load 演算子は、大量のデータを Vantage にアップロードするのに非常に効率的です。 Load 演算子には、高速化のためにいくつかの制限があります。空のテーブルにのみデータを入力できます。すでにデータが入力されているテーブルへの挿入はサポートされていません。セカンダリインデックスを持つテーブルはサポートされていません。また、テーブルが MULTISET テーブルであっても、重複レコードは挿入されません。制限の完全なリストについては Teradata® TPT リファレンス - ロード演算子 - 制限と制約、を参照してください。

TPT には独自のスクリプト言語があります。この言語を使用すると、任意の SQLコマンドを使用してデータベースを準備し、入力ソースを宣言し、Vantage にデータを挿入する方法を定義できます。

CSV データを Vantage にロードするには、ジョブを定義して実行します。ジョブはデータベースを準備します。古いログテーブルとエラーテーブルを削除し、ターゲットテーブルを作成します。次に、ファイルを読み取り、データをデータベースに挿入します。

TPT に Vantage データベースへの接続方法を指示するジョブ変数ファイルを作成します。ファイル jobvars.txt を作成し、次のコンテンツを挿入します。 host をデータベースのホスト名に置き換えます。たとえば、ローカルの Vantage Express インスタンスを使用している場合は、 127.0.0.1を使用します。 username はデータベースユーザー名、 password はデータベースパスワードです。準備ステップ (DDL) とロードステップには独自の構成値があり、DDL とロードステップの両方を構成するには構成値を 2 回入力する必要があることに注意してください。
次の内容のファイルを作成し、 load.txtとして保存します。ジョブファイル内のコメントを参照して、その構造を理解してください。
ジョブを実行します:

実行が成功すると、以下のようなログが返されます。

`TPT` とNOSの比較

この場合、ファイルは S3 バケットにあります。つまり、ネイティブオブジェクトストレージ (NOS) を使用してデータを取り込むことができます。

NOS ソリューションは、追加のツールに依存しないため便利です。SQL のみを使用して実装できます。NOS タスクが AMP に委任され、並列実行されるため、特に多数の AMP を備えた Vantage デプロイではパフォーマンスが優れています。また、オブジェクトストレージ内のデータを複数のファイルに分割すると、パフォーマンスがさらに向上する可能性があります。

まとめ

このハウツーでは、大量のデータを Vantage に取り込む方法を示しました。 TPTを使用して、数十万件のレコードを数秒で Vantage に読み込みました。

さらに詳しく

注記

ご質問がある場合やさらにサポートが必要な場合は、コミュニティフォーラムにアクセスしてサポートを受けたり、他のコミュニティメンバーと交流したりしてください。

Teradata Parallel Transporter（TPT）を使用した巨大なデータのバルクロード

概要​

前提条件​

TTUのインストール​

サンプルデータを入手する​

データベースを作成する​

TPT を実行する​

TPT とNOSの比較​

まとめ​

さらに詳しく​

概要