Utilizar Airbyte para cargar datos de fuentes externas en Teradata Vantage
Información general
Este tutorial muestra cómo usar Airbyte para mover datos desde fuentes a Teradata Vantage, detallando las opciones de Airbyte Open Source y Airbyte Cloud. Este ejemplo específico cubre la replicación de Google Sheets a Teradata Vantage.
- Fuente: Google Sheets
- Destino: Teradata Vantage
Prerrequisitos
-
Acceso a una instancia de Teradata Vantage. Se definirá como el destino de la conexión de Airbyte. Necesitará una base de datos
Host
,Username
yPassword
para la configuración de Airbyte.NotaSi necesita una instancia de prueba de Vantage, puede obtener una de forma gratuita en https://clearscape.teradata.com
-
API de Google Cloud Platform habilitada para su cuenta personal o de organización. Tendrás que autenticar tu cuenta de Google a través de OAuth o a través del Autenticador de claves de cuenta de servicio. En este ejemplo, usamos el autenticador de clave de cuenta de servicio.
-
Datos del sistema de origen. En este caso, utilizamos una hoja de cálculo de muestra de Google Sheets. Los datos de muestra son un desglose de la remuneración por tipo de empleado.
Airbyte Cloud
- Cree una cuenta en Airbyte Cloud y vaya a las instrucciones en la sección Configuración de Airbyte.
Airbyte Open Source
-
Instale Docker Compose para ejecutar Airbyte Open Source localmente. Docker Compose se incluye con Docker Desktop. Consulte la documentación de Docker para obtener detalles adicionales.
-
Clone el repositorio de Airbyte Open Source y vaya al directorio de airbyte.
Asegúrese de que Docker Desktop esté ejecutándose antes de ejecutar el script de shell run-ab-platform
.
-
Ejecute el script de shell
run-ab-platform
comoNotaYou can run the above commands with
git bash
in Windows. Please refer to the Airbyte Local Deployment for more details. ::: -
Inicie sesión en la aplicación web http://localhost:8000/ introduciendo las credenciales predeterminadas que se encuentran en el archivo
.env
incluido en el repositorio.
Al iniciar sesión por primera vez, Airbyte le pedirá que proporcione su dirección de correo electrónico y especifique sus preferencias para mejorar el producto. Introduzca sus preferencias y haga clic en "Comenzar".
Una vez que se inicie Airbyte Open Source, verá un panel de conexiones. Si inició Airbyte Open Source por primera vez, no se mostrará ninguna conexión.
Configuración de Airbyte
Configuración de la conexión de origen
- Puede hacer clic en "Crear su primera conexión" o hacer clic en la esquina superior derecha para iniciar el nuevo flujo de trabajo de conexión en el panel Conexiones de Airbyte.
-
Airbyte te pedirá la Fuente. Puede seleccionar una fuente existente (si ya la ha configurado) o puede configurar una nueva fuente; en este caso seleccionamos
Google Sheets
. -
Para la autenticación utilizamos
Service Account Key Authentication
, que utiliza una clave de cuenta de servicio en formato JSON. Alterne la opción predeterminadaOAuth
aService Account Key Authentication
. Para autenticar su cuenta de Google a través de Autenticación de claves de cuenta de servicio, introduzca su clave de cuenta de servicio de Google Cloud en formato JSON. Asegúrese de que la cuenta de servicio tenga el permiso de visor de proyectos. Si cualquier persona que tenga su enlace puede ver su hoja de cálculo, no es necesario realizar ninguna otra acción. De lo contrario, conceda a su cuenta de servicio acceso a su hoja de cálculo. -
Agregue el enlace a la hoja de cálculo de origen como
Spreadsheet Link
.
Para obtener detalles adicionales, consulte Cómo configurar Google Sheets como conector de origen en Airbyte Open Source
- Haga clic en Configurar fuente, si la configuración es correcta, recibirá el mensaje
All connection tests passed!
Configurar la conexión de destino
- Suponiendo que desea crear una nueva conexión con
Teradata Vantage
, seleccioneTeradata Vantage
como tipo de destino en la sección "Configurar el destino". - Agregue el
Host
,User
yPassword
. Son los mismos que losHost
,Username
yPassword
, respectivamente, utilizados por el entorno de Clearscape Analytics. - Proporcione un nombre de esquema predeterminado apropiado para su contexto específico. Aquí hemos proporcionado
gsheet_airbyte_td
.
Si no proporciona un Default Schema
, recibirá un error que indica "Error del conector al crear el esquema". Asegúrese de proporcionar el nombre apropiado en Default Schema
.
- Haga clic en Configurar destino; si la configuración es correcta, recibirá el mensaje
All connection tests passed!
Es posible que reciba un error de verificación de configuración fallida. Asegúrese de que su instancia de Teradata Vantage funcione correctamente antes de realizar una conexión a través de Airbyte.
Configurar la sincronización de datos
Un espacio de nombres es un grupo de secuencias [tablas) en un origen o destino. Un esquema en un sistema de base de datos relacional es un ejemplo de espacio de nombres. En una fuente, el espacio de nombres es la ubicación desde donde se replican los datos hasta el destino. En un destino, el espacio de nombres es la ubicación donde se almacenan los datos replicados en el destino.Para obtener más detalles, consulte Airbyte Namespace
En nuestro ejemplo, el destino es una base de datos, por lo que el espacio de nombres es el esquema predeterminado gsheet_airbyte_td
que definimos cuando configuramos el destino. El nombre de la secuencia es una tabla que refleja el nombre de la hoja de cálculo en la fuente, que es sample_employee_payrate
en este caso. Dado que utilizamos el conector de hoja de cálculo única, solo admite una secuencia (la hoja de cálculo activa).
Otros tipos de fuentes y destinos pueden tener un diseño diferente. En este ejemplo, Google Sheets, como fuente, no admite un espacio de nombres.
En nuestro ejemplo, hemos utilizado <destination schema>
como espacio de nombres del destino, este es el espacio de nombres predeterminado asignado por Airbyte en función del Default Schema
que declaramos en la configuración del destino. La base de datos gsheet_airbyte_td
se creará en nuestra instancia de Teradata Vantage.
Usamos el término "esquema", ya que es el término utilizado por Airbyte. En el contexto de Teradata, el término "base de datos" es equivalente.
Frecuencia de replicación
Muestra con qué frecuencia deben sincronizarse los datos con el destino. Puede seleccionar cada hora, 2 horas, 3 horas, etc. En nuestro caso utilizamos cada 24 horas.
También puede utilizar una expresión Cron para especificar la hora a la que debe ejecutarse la sincronización. En el siguiente ejemplo, configuramos la expresión Cron para ejecutar la sincronización todos los miércoles a las 12:43 p. m. (hora de EE. UU./Pacífico).
Validación de sincronización de datos
Airbyte rastrea los intentos de sincronización en la sección "Historial de sincronización" de la pestaña Status
.
A continuación, puede ir a ClearScape Analytics Experience y ejecutar un cuaderno Jupyter. Los cuadernos en ClearScape Analytics Experience están configurados para ejecutar consultas SQL de Teradata, para verificar si la base de datos gsheet_airbyte_td
, los flujos (tablas) y los datos completos están presentes.
El nombre de la secuencia (tabla) en el destino tiene el prefijo \_airbyte_raw_
porque la normalización y la transformación no son compatibles con esta conexión, y Solo tenemos la tabla sin procesar. Cada secuencia (tabla) contiene 3 columnas:
-
_airbyte_ab_id
: un uuid asignado por Airbyte a cada evento que se procesa. El tipo de columna en Teradata esVARCHAR(256)
. -
_airbyte_emitted_at
: una marca de tiempo que representa cuándo se extrajo el evento de la fuente de datos. El tipo de columna en Teradata esTIMESTAMP(6)
. -
_airbyte_data
: un blob json que representa los datos del evento. El tipo de columna en Teradata esJSON
.
Aquí, en la columna _airbyte_data
, vemos 9 filas, las mismas que tenemos en la hoja de origen de Google, y los datos están en formato JSON que se puede transformar aún más según sea necesario.
Cerrar y eliminar la conexión
- Puede cerrar la conexión en Airbyte deshabilitándola. Esto detendrá el proceso de sincronización de datos.
- También puede eliminar la conexión.
Resumen
Este tutorial demostró cómo extraer datos de un sistema de origen como Google Sheets y cómo usar la herramienta Airbyte ELT para cargar los datos en la instancia de Teradata Vantage. Vimos el flujo de datos de principio a fin y completamos los pasos de configuración para ejecutar Airbyte Open Source localmente y configurar las conexiones de origen y destino. También analizamos las configuraciones de sincronización de datos disponibles según la frecuencia de replicación. Validamos los resultados en el destino usando Cloudscape Analytics Experience y finalmente vimos los métodos para pausar y eliminar la conexión de Airbyte.
Lectura adicional
Destino Teradata | - Documentación de Airbyte