Incorporación y catalogación de datos desde Teradata Vantage a Amazon S3 con scripts de AWS Glue

Información general

En este inicio rápido se detalla el proceso de incorporación y catalogación de datos de Teradata Vantage a Amazon S3 con AWS Glue.

Sugerencia

Para incorporar datos en Amazon S3 cuando la catalogación no es un requisito, tenga en cuenta las capacidades Write NOS de Teradata.

Prerrequisitos

Acceso a una cuenta de Amazon AWS
Acceso a una instancia de Teradata Vantage
Nota
Si necesita una instancia de prueba de Vantage, puede obtener una de forma gratuita en https://clearscape.teradata.com
Una base de datos cliente para enviar consultas para cargar los datos de prueba

Carga de datos de prueba

En su cliente de base de datos favorito, ejecute las siguientes consultas

Configuración de Amazon AWS

En esta sección cubriremos en detalle cada uno de los pasos a continuación:

Creación de un depósito de Amazon S3 para incorporar datos
Creación de una base de datos de catálogo de AWS Glue para almacenar metadatos
Almacenar credenciales de Teradata Vantage en AWS Secrets Manager
Creación de un rol de servicio de AWS Glue para asignarlo a trabajos de ETL
Crear una conexión a una instancia de Teradata Vantage en AWS Glue
Crear un trabajo de AWS Glue
Redactar un script para la incorporación y catalogación automatizadas de datos de Teradata Vantage en Amazon S3

Creación de un depósito de Amazon S3 para incorporar datos

En Amazon S3, seleccione Create bucket.
Asigne un nombre al depósito y anótelo.
Deje todos los ajustes en sus valores predeterminados.
Haga clic en Create bucket.

Creación de una base de datos de catálogo de AWS Glue para almacenar metadatos

En AWS Glue, seleccione Catálogo de datos, Bases de datos.
Haga clic en Add database.
Defina un nombre para la base de datos y haga clic en Create database.

Almacenar credenciales de Teradata Vantage en AWS Secrets Manager

En AWS Secrets Manager, seleccione Create new secret.
El secreto debe ser Other type of secret con las siguientes claves y valores según su instancia de Teradata Vantage:
- USER
- PASSWORD

Sugerencia

En el caso de ClearScape Analytics Experience, el usuario siempre es "demo_user" y la contraseña es la que definió al crear su entorno de ClearScape Analytics Experience.

valores secretos

Asigne un nombre al secreto.
El resto de los pasos se pueden dejar con los valores predeterminados.
Cree el secreto.

Creación de un rol de servicio de AWS Glue para asignarlo a trabajos de ETL

El rol que cree debe tener acceso a los permisos típicos de un rol de servicio de Glue, pero también acceso para leer el secreto y el depósito S3 que haya creado.

En AWS, vaya al servicio IAM.
En Gestión de acceso, seleccione Roles.
En los roles, haga clic en Create role.
En la selección de una entidad de confianza, seleccione AWS service y elija Glue en el menú desplegable.
En la adición de permisos:
- Busque AWSGlueServiceRole.
- Haga clic en la casilla de verificación correspondiente.
- Busque SecretsManagerReadWrite.
- Haga clic en la casilla de verificación correspondiente.
En la opción para asignar nombre, revisar y crear:
- Defina un nombre para el rol.
Haga clic en Create role.
Regrese a Administración de acceso, Roles y busque el rol que acaba de crear.
Seleccione su rol.
Haga clic en Add permissions y posteriormente en Create inline policy.
Haga clic en JSON.
En el editor de políticas, pegue el objeto JSON a continuación, sustituyendo el nombre del depósito que ha creado.

Haga clic en Next.
Asigne un nombre a su política.
Haga clic en Create policy.

Crear una conexión a una instancia de Teradata Vantage en AWS Glue

En AWS Glue, seleccione Data connections.
En Conectores, seleccione Create connection.
Busque y seleccione la fuente de datos Teradata Vantage.
En el cuadro de diálogo, escriba la URL de su instancia de Teradata Vantage en formato JDBC.

Sugerencia

En el caso de ClearScape Analytics Experience, la URL sigue la siguiente estructura: jdbc:teradata://<URL Host>/DATABASE=demo_user,DBS_PORT=1025

Seleccione el secreto de AWS creado en el paso anterior.
Asigne un nombre a su conexión y finalice el proceso de creación.

Crear un trabajo de AWS Glue

En AWS Glue, seleccione ETL Jobs y haga clic en Script editor.
Seleccione Spark como motor y elija comenzar desde el principio.

Redactar un script para la incorporación y catalogación automatizadas de datos de Teradata Vantage en Amazon S3

Copie el siguiente script en el editor.
- El script requiere las siguientes modificaciones:
  - Sustituya el nombre del depósito S3.
  - Sustituya el nombre del base de datos del catálogo de Glue.
  - Si no está siguiendo el ejemplo de la guía, modifique el nombre de la base de datos y las tablas que se van a incorporar y catalogar.
  - Para fines de catalogación, en el ejemplo solo se incorpora la primera fila de cada tabla. Esta consulta se puede modificar para incorporar toda la tabla o para filtrar filas seleccionadas.

Asignar un nombre al script
En Detalles del trabajo, Propiedades básicas:
- Seleccione el rol de IAM que creó para el trabajo de ETL.
- Para realizar pruebas, seleccione "2" como número solicitado de trabajadores, es el mínimo permitido. * En Advanced properties, Connections seleccione su conexión a Teradata Vantage.

Sugerencia

Debe hacerse referencia dos veces a la conexión creada: una en la configuración del trabajo y otra en el propio script.

conexión de configuración de script

Haga clic en Save.
Haga clic en Run.
- El trabajo de ETL tarda un par de minutos en completarse, la mayor parte de este tiempo está relacionado con el inicio del clúster Spark.

Comprobación de los resultados

Una vez finalizado el trabajo:
- Vaya a Catálogo de datos, Bases de datos.
- Haga clic en la base de datos del catálogo que ha creado.
- En esta ubicación, verá las tablas extraídas y catalogadas a través de su trabajo de ETL de Glue.
Todas las tablas incorporadas también están presentes como archivos comprimidos en S3. En raras ocasiones, estos archivos se consultarán directamente. Se pueden utilizar servicios como AWS Athena para consultar los archivos basándose en los metadatos del catálogo.

Resumen

En este inicio rápido se detalla el proceso de incorporación y catalogación de datos de Teradata Vantage a Amazon S3 con scripts de AWS Glue.

Lectura adicional

Integrar Teradata Vantage con Google Cloud Data Catalog

Nota

Si tiene alguna pregunta o necesita más ayuda, visite nuestro foro de la comunidad donde podrá obtener ayuda e interactuar con otros miembros de la comunidad.

Incorporación y catalogación de datos desde Teradata Vantage a Amazon S3 con scripts de AWS Glue

Información general​

Prerrequisitos​

Carga de datos de prueba​

Configuración de Amazon AWS​

Creación de un depósito de Amazon S3 para incorporar datos​

Creación de una base de datos de catálogo de AWS Glue para almacenar metadatos​

Almacenar credenciales de Teradata Vantage en AWS Secrets Manager​

Creación de un rol de servicio de AWS Glue para asignarlo a trabajos de ETL​

Crear una conexión a una instancia de Teradata Vantage en AWS Glue​

Crear un trabajo de AWS Glue​

Redactar un script para la incorporación y catalogación automatizadas de datos de Teradata Vantage en Amazon S3​

Comprobación de los resultados​

Resumen​

Lectura adicional​

Información general

Prerrequisitos

Carga de datos de prueba

Configuración de Amazon AWS

Creación de un depósito de Amazon S3 para incorporar datos

Creación de una base de datos de catálogo de AWS Glue para almacenar metadatos

Almacenar credenciales de Teradata Vantage en AWS Secrets Manager

Creación de un rol de servicio de AWS Glue para asignarlo a trabajos de ETL

Crear una conexión a una instancia de Teradata Vantage en AWS Glue

Crear un trabajo de AWS Glue

Redactar un script para la incorporación y catalogación automatizadas de datos de Teradata Vantage en Amazon S3

Comprobación de los resultados

Resumen

Lectura adicional