Crear archivos Parquet en el almacenamiento de objetos
Información general
Native Object Storage (NOS) es una función de Vantage que le permite consultar datos almacenados en archivos como conjuntos de datos en formato CSV, JSON y Parquet. Estos conjuntos de datos se encuentran en un almacenamiento de objetos externo compatible con S3, como AWS S3, Google GCS, Azure Blob o implementaciones locales. Es útil en escenarios en los que desea explorar datos sin crear una canalización de datos para incorporarlos a Vantage. Este tutorial demuestra cómo exportar datos desde Vantage al almacenamiento de objetos utilizando el formato de archivo Parquet.
Prerrequisitos
Necesita acceso a una instancia de Teradata Vantage. NOS está habilitado en todas las ediciones de Vantage, desde Vantage Express hasta Developer, DYI y Vantage as a Service a partir de la versión 17.10.
Este tutorial se basa en el almacenamiento de objetos de s3 aws. Necesitará su propio depósito s3 con permisos de escritura para completar el tutorial.
Ahora puede obtener una instancia alojada de Vantage de forma gratuita en https://clearscape.teradata.com.
Crear un archivo Parquet con la función WRITE_NOS
WRITE_NOS
le permite extraer columnas seleccionadas o todas de una tabla de base de datos o de resultados derivados y escribir en un almacenamiento de objetos externo, como Amazon S3, Azure Blob Storage, Azure Data Lake Storage Gen2 y Google Cloud Storage. Esta funcionalidad almacena datos en formato Parquet.
Puede encontrar más documentación sobre la funcionalidad WRITE_NOS
en la documentación de NOS.
Necesitará acceso a una base de datos donde pueda ejecutar la función WRITE_NOS
. Si no tiene dicha base de datos, ejecute los siguientes comandos:
Si quiere obtener más información sobre cómo configurar usuarios y sus privilegios, consulte la documentación de NOS.
- Primero creemos una tabla en su instancia de Teradata Vantage:
- Complete su tabla con datos de ejemplo:
Su tabla ahora debería verse así:
- Cree el archivo parquet con
WRITE_NOS
. No olvide reemplazar<BUCKET_NAME>
con el nombre de su depósito s3. Además, reemplace<YOUR-ACCESS-KEY-ID>
y<YOUR-SECRET-ACCESS-KEY>
con su clave de acceso y secreto.
Consulte los documentos de su proveedor de nube sobre cómo crear credenciales para acceder al almacenamiento de objetos. Por ejemplo, para AWS consulte ¿Cómo creo una clave de acceso de AWS?
Ahora ha creado un archivo parquet en su depósito de almacenamiento de objetos. Ahora, para consultar fácilmente su archivo, debe seguir el paso número 4.
- Cree una tabla externa respaldada por NOS. No olvide reemplazar
<BUCKET_NAME>
con el nombre de su depósito s3. Además, reemplace<YOUR-ACCESS-KEY-ID>
y<YOUR-SECRET-ACCESS-KEY>
con su clave de acceso y secreto:
- Ahora que está listo para consultar su archivo parquet en NOS, intentemos la siguiente consulta:
Los datos devueltos por la consulta deberían verse así:
Resumen
En este tutorial, hemos aprendido cómo exportar datos de Vantage a un archivo parquet en el almacenamiento de objetos utilizando Native Object Storage (NOS). NOS admite la lectura e importación de datos almacenados en formatos CSV, JSON y Parquet. NOS también puede exportar datos desde Vantage al almacenamiento de objetos.
Lectura adicional
Si tiene alguna pregunta o necesita más ayuda, visite nuestro foro de la comunidad donde podrá obtener ayuda e interactuar con otros miembros de la comunidad.