Saltar al contenido principal

Seleccionar la solución de ingesta de datos adecuada para Teradata Vantage

Información general

Este artículo describe diferentes casos de uso relacionados con la ingesta de datos. Enumera las soluciones disponibles y recomienda la solución óptima para cada caso de uso.

Ingesta de alto volumen, incluida la transmisión

Soluciones disponibles:

La API de Teradata Parallel Transport suele ser la solución de mayor rendimiento que ofrece un alto rendimiento y una latencia mínima. Úsela si necesita ingerir decenas de miles de filas por segundo y si se siente cómodo usando el lenguaje C.

Utilice los controladores de la base de datos de Teradata cuando el número de eventos sea de miles por segundo. Considere utilizar el protocolo Fastload que está disponible en los controladores más populares, por ejemplo, JDBC, Python.

Si no quiere administrar la dependencia de las bibliotecas de controladores, utilice Query Service. Dado que Query Service utiliza el protocolo de controlador normal para comunicarse con la base de datos, el rendimiento de esta solución es similar al que ofrecen los controladores de bases de datos como JDBC. Si es un proveedor y quiere integrar su producto con Teradata, tenga en cuenta que no todos los clientes de Teradata tienen habilitado Query Service en sus sedes.

Si su solución puede aceptar una latencia mayor, una buena opción es transmitir eventos al almacenamiento de objetos y luego leer los datos usando NOS. Esta solución suele requerir la menor cantidad de esfuerzo.

Ingerir datos del almacenamiento de objetos

Soluciones disponibles:

Flow es el mecanismo de incorporación recomendado para llevar datos desde el almacenamiento de objetos a VantageCloud Lake. Para todas las demás versiones de Teradata Vantage, Teradata NOS es la opción recomendada. NOS puede aprovechar todos los nodos de Teradata para realizar la incorporación. Teradata Parallel Transporter (TPT) se ejecuta en el lado del cliente. Se puede utilizar cuando no hay conectividad desde NOS al almacenamiento de objetos.

Ingerir datos de archivos locales

Soluciones disponibles:

TPT es la opción recomendada para cargar datos desde archivos locales. TPT está optimizado para la escalabilidad y el paralelismo, por lo que tiene el mejor rendimiento de todas las opciones disponibles. BTEQ se puede utilizar cuando un proceso de ingesta requiere secuencias de comandos. También tiene sentido continuar usando BTEQ si todas las demás canalizaciones de ingesta se ejecutan en BTEQ.

Ingerir datos de aplicaciones SaaS

Soluciones disponibles:

Las herramientas de terceros suelen ser una mejor opción para mover datos de aplicaciones SaaS a Teradata Vantage. Ofrecen un amplio soporte para fuentes de datos y eliminan la necesidad de gestionar pasos intermedios, como exportar y almacenar conjuntos de datos exportados.

Utilice datos almacenados en otras bases de datos para el procesamiento unificado de consultas.

Soluciones disponibles:

QueryGrid es la opción recomendada para mover cantidades limitadas de datos entre diferentes sistemas/plataformas. Esto incluye movimiento dentro de instancias Vantage, Apache Spark, Oracle, Presto, etc. Es especialmente adecuado para situaciones en las que lo que se debe sincronizar se describe mediante condiciones complejas que se pueden expresar en SQL.

Resumen

En este artículo, exploramos varios casos de uso de ingesta de datos, proporcionamos una lista de herramientas disponibles para cada caso de uso e identificamos las opciones recomendadas para diferentes escenarios.

Lectura adicional

También de interés