Saltar al contenido principal

Ejecutar grandes cargas masivas de manera eficiente con Teradata Parallel Transporter (TPT)

Información general

A menudo tenemos la necesidad de mover grandes volúmenes de datos a Vantage. Teradata ofrece la utilidad Teradata Parallel Transporter (TPT), que puede cargar de manera eficiente grandes cantidades de datos en Teradata Vantage. Este tutorial demuestra cómo usar TPT. En este escenario, cargaremos más de 300.000 registros, más de 40 MB de datos, en un par de segundos.

Prerrequisitos

  • Acceso a una instancia de Teradata Vantage.

    Nota

    Si necesita una instancia de prueba de Vantage, puede obtener una de forma gratuita en https://clearscape.teradata.com

  • Descargue Teradata Tools and Utilities (TTU) - Plataformas compatibles: Windows, MacOS, Linux (requiere registro).

Instalar TTU

Ejecutar en Powershell:

Obtener datos de muestra

Trabajaremos con las declaraciones de impuestos de EE. UU. para organizaciones sin fines de lucro. Las declaraciones de impuestos de organizaciones sin fines de lucro son datos públicos. El Servicio de Impuestos Internos de EE. UU. los publica en el depósito S3. Veamos un resumen de las presentaciones de 2020: https://storage.googleapis.com/clearscape_analytics_demo_data/TPT/index_2020.csv. Puede utilizar su navegador, wget o curl para guardar el archivo localmente.

Crear una base de datos

Creemos una base de datos en Vantage. Utilice su herramienta SQL favorita para ejecutar la siguiente consulta:

Ejecutar TPT

Ahora ejecutaremos TPT. TPT es una herramienta de línea de comandos que se puede utilizar para cargar, extraer y actualizar datos en Teradata Vantage. Estas diversas funciones se implementan en los llamados operators. Por ejemplo, la carga de datos en Vantage la maneja el operador Load. El operador Load es muy eficiente a la hora de cargar grandes cantidades de datos en Vantage. El operador Load, para ser rápido, tiene varias restricciones. Solo puede llenar tablas vacías. No se admiten inserciones en tablas ya completadas. No admite tablas con índices secundarios. Además, no insertará registros duplicados, incluso si una tabla es una tabla MULTISET. Para obtener la lista completa de restricciones, consulte Referencia de Teradata® TPT - Operador de carga - Restricciones y limitaciones.

TPT tiene su propio lenguaje de programación. El lenguaje le permite preparar la base de datos con comandos SQL arbitrarios, declarar la fuente de entrada y definir cómo se deben insertar los datos en Vantage.

Para cargar los datos csv en Vantage, definiremos y ejecutaremos un trabajo. El trabajo preparará la base de datos. Eliminará las tablas de registro y errores antiguas y creará la tabla de destino. Luego leerá el archivo e insertará los datos en la base de datos.

  • Cree un archivo de variable de trabajo que le indique a TPT cómo conectarse a nuestra base de datos Vantage. Cree el archivo jobvars.txt e inserte el siguiente contenido. Reemplace host con el nombre de host de su base de datos. Por ejemplo, si está utilizando una instancia local de Vantage Express, utilice 127.0.0.1. username con el nombre de usuario de la base de datos y password con la contraseña de la base de datos. Tenga en cuenta que el paso de preparación (DDL) y el paso de carga tienen sus propios valores de configuración y que los valores de configuración deben introducirse dos veces para configurar tanto el DDL como el paso de carga.

  • Cree un archivo con el siguiente contenido y guárdelo como load.txt. Consulte los comentarios dentro del archivo de trabajo para comprender su estructura.

  • Ejecute el trabajo:

    Una ejecución exitosa devolverá registros similares a este:

TPT vs. NOS

En nuestro caso, el archivo está en un depósito S3. Eso significa que podemos usar Native Object Storage (NOS) para ingerir los datos:

La solución NOS es práctica porque no depende de herramientas adicionales. Se puede implementar usando solo SQL. Funciona bien, especialmente para implementaciones Vantage con una gran cantidad de AMP, ya que las tareas NOS se delegan a AMP y se ejecutan en paralelo. Además, dividir los datos del almacenamiento de objetos en varios archivos puede mejorar aún más el rendimiento.

Resumen

Este tutorial demostró cómo incorporar grandes cantidades de datos en Vantage. Cargamos cientos de miles de registros en Vantage en un par de segundos usando TPT.

Lectura adicional

Nota

Si tiene alguna pregunta o necesita más ayuda, visite nuestro foro de la comunidad donde podrá obtener ayuda e interactuar con otros miembros de la comunidad.

También de interés