Teradata Vantageを使用した時系列解析の実行
概要
時系列とは、時間順にインデックス付けされたデータ ポイントの系列です。これは、モノのインターネット (IoT) を含むさまざまなアプリケーションやデバイスによって継続的に生成および収集されるデータです。Teradata Vantage は、時系列データ分析を簡素化するさまざまな機能を提供します。
前提条件
Teradata Vantage インスタンスにアクセスする必要があります。時系列機能と NOS は、バージョン 17.10 以降、Vantage Express から Developer、DYI、Vantage as a Service までのすべての Vantage エディションで有効になります。
Vantage のテストインスタンスが必要な場合は、 https://clearscape.teradata.com で無料でプロビジョニングできます
Vantage NOSを使用してAWS S3からのデータセットをインポートする
サンプル データ セットは S3 バケットで利用でき、Vantage NOS を使用して Vantage から直接アクセスできます。データは CSV 形式なので、時系列分析のために Vantage に取り込んでみましょう。
まずはデータを見てみましょう。以下のクエリーは S3 バケットから 10 行を取得します。
得られたものは以下のとおりです。
完全なデータを抽出し、Vantage に取り込んでさらに分析してみましょう。
結果:
Vantageは、S3からデータを取得し、作成したばかりのトリップテーブルに挿入します。
基本的な時系列演算
データ セットについて理解できたので、Vantage の機能を使用してデータ セットをすばやく分析できます。まず、11 月に 1 時間ごとに乗車する乗客数を確認しましょう。
GROUP BY TIMEの詳細については、こちらをご覧ください。
結果:
はい、これは、時間から時間を抽出して集計することによっても実現できる。これは追加のコード/作業であるが、時系列固有の機能がなくても実行できます。
しかし、ここでさらに一歩進んで、11 月に何人の乗客が乗車しているか、またベンダー別の 15 分ごとの平均移動所要期間はどれくらいかを識別してみましょう。
結果:
これが Vantage の時系列機能の威力です。複雑で面倒なロジックを必要とせず、時間句によるグループ化を変更するだけで、ベンダー別の平均移動時間を 15 分ごとに見つけることができます。これに基づいて移動平均を構築するのがいかに簡単かを見てみましょう。まず、以下のようにビューを作成します。
15分の時系列で2時間の移動平均を計算してみよう。 2時間は8*15分の期間です。
結果:
上記の時系列操作に加えて、Vantage はプライマリ タイム インデックス (PTI) を備えた特別な時系列テーブルも提供します。これらは、プライマリ インデックス (PI) ではなく PTI が定義された通常の Vantage テーブルです。PTI を備えたテーブルは時系列機能/操作に必須ではありませんが、PTI は時系列データの物理的な保存方法を最適化するため、通常のテーブルに比べてパフォーマンスが大幅に向上します。
まとめ
このクイック スタートでは、Vantage の時系列機能を使用して時系列データセットを分析することがいかに簡単であるかを学びました。
さらに詳しく
- Teradata Vantage™ - 時系列テーブルと操作
- オブジェクトストレージに保存されたクエリーデータ
- Teradata Vantage™- Native Object Store 入門ガイド
ご質問がある場合やさらにサポートが必要な場合は、 コミュニティフォーラム にアクセスしてサポートを受けたり、他のコミュニティ メンバーと交流したりしてください。