Integrar Teradata Vantage con Google Cloud Data Catalog
Información general
En este artículo, se describe el proceso para conectar Teradata Vantage con Google Cloud Data Catalog mediante el Conector de Teradata para Data Catalog en GitHub y, luego, explorar los metadatos de las tablas de Vantage a través de Data Catalog.
- Extraer: conéctese a Teradata Vantage y recupere todos los metadatos disponibles
- Preparar: transforme los metadatos en entidades de Data Catalog y cree etiquetas
- Ingerir: envíe las entidades de Data Catalog al proyecto de Google Cloud
Acerca de Google Cloud Data Catalog
Google Cloud Data Catalog es un servicio de gestión de metadatos y descubrimiento de datos totalmente gestionado. Data Catalog puede catalogar los metadatos nativos de los activos de datos. Data Catalog no tiene servidor y proporciona un catálogo central para capturar metadatos técnicos y comerciales en un formato estructurado.
Acerca de Teradata Vantage
Vantage es la plataforma en la nube moderna que unifica almacenes de datos, lagos de datos y análisis en un único ecosistema conectado.
Vantage combina análisis descriptivos, predictivos y prescriptivos, toma de decisiones autónoma, funciones de aprendizaje automático y herramientas de visualización en una plataforma unificada e integrada que descubre inteligencia empresarial en tiempo real a escala, sin importar dónde residan los datos.
Vantage permite a las empresas iniciar computación o almacenamiento a pequeña escala y de manera elástica, pagando solo por lo que usan, aprovechando almacenes de objetos de bajo coste e integrando sus cargas de trabajo analíticas.
Vantage es compatible con R, Python, Teradata Studio y cualquier otra herramienta basada en SQL. Puede implementar Vantage en nubes públicas, en las instalaciones, en una infraestructura optimizada o básica, o como servicio.
Consulte la documentación para obtener más información sobre Teradata Vantage.
Prerrequisitos
-
Acceso a una instancia de Teradata Vantage.
-
Un cuenta de servicio de Google con rol de administrador del catálogo de datos
-
Un proyecto de consola en la nube creado para tu cuenta (es decir, partner-integration-lab)
-
Facturación habilitada
-
SDK de Google Cloud Instalado e inicializado
-
Python Instalado
-
Pip Instalado
Procedimiento
- Habilite las API de Data Catalog
- Instalar el conector de Data Catalog de Teradata
- Ejecutar
- Explorar los metadatos de Teradata Vantage con Data Catalog
Habilitar la API de Data Catalog
-
Inicie sesión en la consola de Google, elija API y servicios en el menú de navegación y, posteriormente, haga clic en Biblioteca. Asegúrese de que su proyecto esté seleccionado en la barra de menús superior.
-
Ponga Data Catalog en el cuadro de búsqueda y haga clic en API de Google Cloud Data Catalog, haga clic en ENABLE
Instalar el conector de Data Catalog de Teradata
Hay un conector de Data Catalog de Teradata disponible en GitHub. Este conector está escrito en Python.
-
Ejecute el siguiente comando para autorizar a gcloud a acceder a Cloud Platform con las credenciales de usuario de Google.
-
Elija su cuenta de Google cuando se abra la página de inicio de sesión de Google y haga clic en Permitir en la página siguiente.
-
A continuación, configure el proyecto predeterminado si aún no lo ha hecho
Instalar virtualenv
Le recomendamos instalar el conector de Data Catalog de Teradata en un entorno Python aislado. Para ello, instale primero virtualenv:
-
Windows
Ejecute en Powershell como administrador:
-
MacOS
-
Linux
Instalar el conector de Data Catalog en Teradata
-
Windows
-
MacOS
-
Linux
Establecer variables de entorno
Donde <google_credential_file>
es la clave de su cuenta de servicio (archivo json).
Ejecutar
Ejecute el comando google-datacatalog-teradata-connector
para establecer el punto de entrada a la base de datos Vantage.
Ejemplo de salida del comando google-datacatalog-teradata-connector:
Explorar los metadatos de Teradata Vantage con Data Catalog
-
Vaya a la consola de Data Catalog, haga clic en el proyecto (es decir, partner-integration-lab) en Proyectos. Las tablas de Teradata se muestran en el panel derecho.
-
Haga clic en la tabla que le interese (es decir, CITY_LEVEL_TRANS) y verá los metadatos sobre esta tabla:
Limpieza (opcional)
-
Limpie los metadatos de Data Catalog. Para ello, copie https://github.com/GoogleCloudPlatform/datacatalog-connectors-rdbms/blob/master/google-datacatalog-teradata-connector/tools/cleanup_datacatalog.py en el directorio local.
-
Cambie el directorio al lugar donde está el archivo y luego ejecute el siguiente comando: