dbtを使用するAirflowワークフローをTeradata Vantageを使って実行してみる
概要
このチュートリアルでは、AWS EC2 VM に Airflow をインストールし、ワークフローが dbt を使用するように構成し、それを Teradata Vantage データベースに対して実行する方法を説明します。Airflow は、通常、データ パイプラインを構築してデータを処理およびロードするために使用されるタスク スケジューリング ツールです。この例では、Docker ベースの Airflow 環境を作成する Airflow インストール プロセスについて説明します。Airflow がインストールされたら、データを Teradata Vantage データベースにロードするいくつかの Airflow DAG (Direct Acyclic Graph、または単にワークフロー) の例を実行します。
前提条件
- AWS(Amazon Web Services)にアクセスしVMを作成するための権限を持つこと
このチュートリアルは、このドキュメントで説明されているマシン (約 100 GB のストレージを備えた AWS 上の t2.2xlarge EC2) と同等のコンピューティングおよびストレージ容量があり、インターネットに接続されている限り、他のコンピューティング プラットフォームやベア メタル マシンに合わせて調整できます。別のコンピューティング プラットフォームを使用する場合は、チュートリアルの一部の手順を変更する必要があります。
- SSHクライアントが必要です。
- Teradata Vantage データベースへのアクセス。Teradata Vantage にアクセスできない場合は、開発者向けの無料エディションである Vantage Express をご覧ください。
Airflow をインストールして実行する
VMを作成する
- AWS EC2コンソールに移動し、
Launch instance
をクリックします。 - オペレーティングシステムイメージの
Red Hat
を選択します。 - インスタンスタイプは
t2.2xlarge
を選択します。 - 新しいキー ペアを作成するか、既存のキー ペアを使用します。
- サーバーに SSH 接続できるようにネットワーク設定を適用すると、サーバーはインターネットへの送信接続が可能になります。通常は、デフォルト設定を適用すれば十分です。
- 100 GBのストレージを割り当てます 。
Pythonのインストール
-
ec2-user
ユーザーを使用してマシンにsshします。 -
Python がインストールされているかどうかを確認します (Python 3.7 以上である必要があります)。コマンド ラインに
python
またはpython3
と入力します。 -
Python がインストールされていない場合 (
command not found
メッセージが表示される)、以下のコマンドを実行してインストールします。コマンドでは、y
と入力して Enter し、インストールを確認する必要がある場合があります。
Airflow環境の構築
- Airflowディレクトリ構造を作成します(ec2-userホームディレクトリ/home/ec2-userから)
- お好みのファイル転送ツール (
scp
、PuTTY
、MobaXterm
など) を使用して、airflow.cfg ファイルをairflow/config
ディレクトリにアップロードします。