Realizar análisis de series temporales mediante Teradata Vantage
Información general
Las series temporales son series de puntos de datos indexados en orden temporal. Son datos producidos y recopilados continuamente por una amplia gama de aplicaciones y dispositivos, incluido, entre otros, el Internet de las cosas. Teradata Vantage ofrece varias funcionalidades para simplificar el análisis de datos de las series temporales.
Prerrequisitos
Necesita acceso a una instancia de Teradata Vantage. Las funcionalidades de serie temporal y NOS están habilitadas en todas las ediciones de Vantage, desde Vantage Express hasta Developer, DYI y Vantage as a Service a partir de la versión 17.10.
Si necesita una instancia de prueba de Vantage, puede obtener una de forma gratuita en https://clearscape.teradata.com
Importar conjuntos de datos desde AWS S3 mediante Vantage NOS
Nuestros conjuntos de datos de muestra están disponibles en el depósito S3 y se puede acceder a ellos desde Vantage directamente usando Vantage NOS. Los datos están en formato CSV y los incorporaremos a Vantage para nuestro análisis de series temporales.
Echemos un vistazo primero a los datos. La siguiente consulta recuperará 10 filas del depósito S3.
Esto es lo que tenemos:
Extraigamos los datos completos y llevémoslos a Vantage para su posterior análisis.
Resultado:
Vantage ahora obtendrá los datos de S3 y los insertará en la tabla de viajes que acabamos de crear.
Operaciones básicas de series temporales
Ahora que estamos familiarizados con el conjunto de datos, podemos utilizar las capacidades de Vantage para analizarlo rápidamente. Primero, identifiquemos cuántos pasajeros se recogen por hora en el mes de noviembre.
Para obtener más información sobre GROUP BY TIME.
Resultado:
Sí, esto también se puede lograr extrayendo la hora del tiempo y luego agregándola; es código/trabajo adicional, pero se puede hacer sin una funcionalidad específica de la serie temporal.
Pero ahora vayamos un paso más allá para identificar cuántos pasajeros están siendo recogidos y cuál es la duración promedio del viaje por proveedor cada 15 minutos en noviembre.
Resultado:
Este es el poder de la funcionalidad de series temporales de Vantage. Sin necesidad de una lógica complicada y engorrosa, podemos encontrar la duración promedio del viaje por proveedor cada 15 minutos simplemente modificando la cláusula de grupo por tiempo. Veamos ahora lo sencillo que es construir medias móviles basadas en esto. Primero, comencemos creando una vista como se muestra a continuación.
Calculemos un promedio móvil de 2 horas en nuestra serie temporal de 15 minutos. 2 horas son períodos de 8 * 15 minutos.
Resultado:
Además de las operaciones de series temporales anteriores, Vantage también proporciona tablas de series temporales especiales con índice de tiempo primario (Primary Time Index, PTI). Estas son tablas Vantage regulares con PTI definido en lugar de un índice primario (Primary Index, PI). Aunque las tablas con PTI no son obligatorias para las funciones/operaciones de series temporales, PTI optimiza la forma en que se almacenan físicamente los datos de las series temporales y, por lo tanto, mejora considerablemente el rendimiento en comparación con las tablas normales.
Resumen
En este inicio rápido, hemos aprendido lo fácil que es analizar conjuntos de datos de series temporales utilizando las capacidades de series temporales de Vantage.
Lectura adicional
- Teradata Vantage™: operaciones y tablas de series temporales
- Consultar datos almacenados en el almacenamiento de objetos
- Teradata Vantage™: Guía de introducción a Native Object Storage
Si tiene alguna pregunta o necesita más ayuda, visite nuestro foro de la comunidad donde podrá obtener ayuda e interactuar con otros miembros de la comunidad.