Teradata Parallel Transporter(TPT)を使用した巨大なデータのバルクロード
概要
大量のデータを Vantage に移動する必要が生じることがよくあります。Teradata は、大量のデータを効率的に Teradata Vantage にロードできる Teradata Parallel Transporter (TPT)
ユーティリティを提供しています。このハウツーでは、 TPT
の使用方法を説明します。このシナリオでは、30 万件を超えるレコード、つまり 40 MB を超えるデータを数秒でロードします。
前提条件
-
Teradata Vantageインスタンスへのアクセス。
注記Vantage のテストインスタンスが必要な場合は、 https://clearscape.teradata.com で無料でプロビジョニングできます
-
Teradata Tools and Utilities (TTU) をダウンロード - サポートされているプラットフォーム: Windows, MacOS, Linux (登録が必要です).
TTUのインストール
- Windows
- MacOS
- Linux
Run in Powershell:
bash Unzip the downloaded file and run `setup.exe`.
bash Unzip the downloaded file and run `TeradataToolsAndUtilitiesXX.XX.XX.pkg`.
Unzip the downloaded file, go to the unzipped directory and run:
bash ./setup.sh a
サンプルデータを入手する
私たちは、非営利団体の米国納税申告書を扱います。非営利団体の納税申告書は公開データです。米国国税庁はそれを S3 バケットで公開しています。2020 年の申告書の概要を取得しましょう: https://storage.googleapis.com/clearscape_analytics_demo_data/TPT/index_2020.csv
。ブラウザ、 wget
、 または curl
を使用してファイルをローカルに保存できます。
データベースを作成する
Vantage でデータベースを作成しましょう。お気に入りの SQL ツールを使用して、次のクエリーを実行します。
TPT を実行する
ここで TPT
を実行します。 TPT
は、 Teradata Vantage でデータのロード、抽出、更新に使用できるコマンドライン ツールです。これらのさまざまな機能は、いわゆる operators
に実装されています。たとえば、Vantage へのデータのロードは Load
演算子によって処理されます。 Load
演算子は、大量のデータを Vantage にアップロードするのに非常に効率的です。 Load
演算子には、高速化のためにいくつかの制限があります。空のテーブルにのみデータを入力できます。すでにデータが入力されているテーブルへの挿入はサポートされていません。セカンダリ インデックスを持つテーブルはサポートされていません。また、テーブルが MULTISET
テーブルであっても、重複レコードは挿入されません。制限の完全なリストについては Teradata® TPT リファレンス - ロード演算子 - 制限と制約、を参照してください。
TPT には独自のスクリプト言語があります。この言語を使用すると、任意の SQLコマンドを使用してデータベースを準備し、入力ソースを宣言し、Vantage にデータを挿入する方法を定義できます。
CSV データを Vantage にロードするには、ジョブを定義して実行します。ジョブはデータベースを準備します。古いログ テーブルとエラー テーブルを削除し、ターゲット テーブルを作成します。次に、ファイルを読み取り、データをデータベースに挿入します。
-
TPT に Vantage データベースへの接続方法を指示するジョブ変数ファイルを作成します。ファイル
jobvars.txt
を作成し、次のコンテンツを挿入します。host
をデータベースのホスト名に置き換えます。たとえば、ローカルの Vantage Express インスタンスを使用している場合は、127.0.0.1
を使用します。username
はデータベース ユーザー名、password
はデータベース パスワードです。準備ステップ (DDL) とロード ステップには独自の構成値があり、DDL とロード ステップの両方を構成するには構成値を 2 回入力する必要があることに注意してください。 -
次の内容のファイルを作成し、
load.txt
として保存します。ジョブ ファイル内のコメントを参照して、その構造を理解してください。 -
ジョブを実行します:
実行が成功すると、以下のようなログが返されます。