VantageからのオブジェクトストアへのParquetファイルの作成
概要
Native Object Storage (NOS) はCSV、JSON、Parquet形式のデータセットなどのファイルに保存されているデータを照会するためのVantage 機能です。 これらはAWS S3、Google GCS、Azure BlobやオンプレミスのS3互換のオブジェクト ストレージをサポートしています。 これは、データ パイプラインを構築せずにデータを探索し、Vantage に取り込むシナリオで役立ちます。こ のチュートリアルでは、Parquet ファイル形式を使用して、Vantage からオブジェクト ストレージにデータをエクスポートする方法を説明します。
前提条件
Teradata Vantage インスタンスにアクセスする必要があります。NOS は、バージョン 17.10 以降、Vantage Express から Developer、DYI、Vantage as a Service までのすべての Vantage エディションで有効になります。
このチュートリアルは、S3 AWS オブジェクト ストレージに基づいています。チュートリアルを完了するには、書き込み権限を持つ独自の S3 バケットが必要です。
現在、 https://clearscape.teradata.comで Vantage のホストインスタンスを無料で入手できます。
WRITE_NOS 関数を使用して Parquet ファイルを作成します。
WRITE_NOS
を使用するとデータベーステーブルまたはクエリーの結果を選択したまたはすべてのカラムを使用してAmazon S3, Azure Blob storage, Azure Data Lake Storage Gen2, Google Cloud Storageなどの外部オブジェクト ストレージに書き込むことができます。この機能はデータを Parquet 形式で保存します。
WRITE_NOS
の機能に関する詳細なドキュメントは、NOSドキュメントにあります。
WRITE_NOS
関数を実行できるデータベースにアクセスする必要があります。そのようなデータベースがない場合は、次のコマンドを実行します。
ユーザーとその権限の設定についてもっと詳しく知りたい場合は、NOSドキュメント を参照してください。
- まず、Teradata Vantage インスタンスにテーブルを作成しましょう。
- テーブルにサンプルデータを入力します。
テーブルは以下のようになります。
WRITE_NOS
を使用して parquet ファイルを作成します。<BUCKET_NAME>
をs3 バケットの名前に置き換えることを忘れないでください。また、<YOUR-ACCESS-KEY-ID>
と<YOUR-SECRET-ACCESS-KEY>
をアクセス キーとシークレットに置き換えます。
オブジェクトストレージにアクセスするための認証情報の作成方法については、クラウドプロバイダのドキュメントを確認してください。たとえば、AWSの場合は以下を参照してください。 AWS アクセスキーを作成するにはどうすればよいですか?
これで、オブジェクト ストレージ バケットに parquet ファイルが作成されました。ファイルに対して簡単にクエリーを実行するには、手順 4 に従う必要があります。
- NOS でバックアップされた外部テーブルを作成します。
<BUCKET_NAME>
をs3 バケットの名前に置き換えることを忘れないでください。また、<YOUR-ACCESS-KEY-ID>
と<YOUR-SECRET-ACCESS-KEY>
をアクセス キーとシークレットに置き換えます。
- これで、NOS 上のparquetファイルをクエリーする準備ができました。以下のクエリーを試してみましょう。
クエリーから返されるデータは以下のようになります。
まとめ
このチュートリアルでは、Native Object Storage (NOS) を使用して、Vantage からオブジェクト ストレージ上の parquet ファイルにデータをエクスポートする方法を学習しました。NOS は、CSV、JSON、および Parquet 形式で保存されたデータの読み取りとインポートをサポートしています。NOS は、Vantage からオブジェクト ストレージにデータをエクスポートすることもできます。
さらに詳しく
ご質問がある場合やさらにサポートが必要な場合は、 コミュニティフォーラム にアクセスしてサポートを受けたり、他のコミュニティ メンバーと交流したりしてください。