El proceso ETL es uno de los fundamentos de la informática que permite que los datos de diferentes fuentes se conviertan en conocimientos valiosos.
Hoy en día, los datos relevantes para la empresa provienen de una amplia variedad de fuentes internas y externas.
Para que toda esta información sea utilizable es donde entra en juego el proceso ETL.
Indice de Contenidos:
-
¿Qué es ETL?
-
Las 3 Fases del Proceso ETL
-
Herramientas ETL
-
Áreas de Aplicación
ETL es la abreviatura de las palabras Extraer, Transformar y Cargar
en inglés (Extract, Transform y Load).
Este método de la informática permite leer datos de una amplia variedad de
fuentes, procesarlos y ponerlos a disposición en un sistema central.
El objetivo es
convertir los datos en información relevante para la
toma de decisiones.
En pocas palabras, el proceso ETL extrae y reúne datos sin procesar, los
transforma para que sean comprensibles y los carga en un sistema de destino,
como una base de datos o un almacén de datos, para facilitar el acceso y el
análisis.
OJO no es lo mismo el proceso ETL que un almacen de datos también llamado
Data Warehouse o
DataMining.
Veamos las 3 fases del proceso.
El proceso ETL se divide en tres fases diferentes:
Extraer: los datos se extraen de los sistemas o documentos
de origen, es decir, se extraen y se ponen a disposición para los siguientes
pasos de procesamiento.
No se extrae ningún dato que no sea necesario.
Transformar: Es la etapa o capa de limpieza de datos.
De esta manera, por ejemplo, se identifican y filtran duplicados, se
realizan cálculos o se vinculan datos adicionales (maestros).
Las fuentes de datos pueden contener datos de múltiples fuentes como bases
de datos locales, sistemas CRM, plataformas de automatización de marketing,
almacenes de datos en la nube,
Debemos formatear y convertir los datos obtenidos a un formato estándar
compatible con la base de datos de destino.
Ahora con los datos en la base de datos de salida debemos limpiar los datos,
es decir quitar duplicados y datos irrelevantes.
Podríamos resumir esta fase en los siguientes pasos:
-Formatear los datos convertidos a un formato estándar para lograr
compatibilidad.
-Purgar los datos irrelevantes de los registros.
-Ordenar y filtrar datos.
-Eliminar la información duplicada.
-Traducir donde sea necesario.
Cargar: se cargan los datos transformados en el almacén o
base de datos de destino.
Allí se almacenan de forma estructurada y normalizada.
Es importante que los pasos del proceso ETL se ejecuten a alta velocidad y
con baja latencia (espera de carga).
Los pasos de procesamiento de datos, transformación y carga también se
pueden intercambiar.
En este caso, los datos se cargan primero en una base de datos central y
luego se transforman utilizando algoritmos especiales.
Este proceso
se llama ELT, no ETL.
Las herramientas ETL pueden simplificar enormemente el proceso ETL.
Los principales fabricantes de sistemas de gestión de bases de datos y
aplicaciones de big data, como IBM, SAP, Oracle o Microsoft, ofrecen
productos que dan soporte al proceso ETL.
La herramienta ideal debería ofrecer las siguientes
características:
-
Muchos conectores: hay muchos sistemas y aplicaciones
diferentes en todo el mundo. Cuantos más conectores listos traigan sus
herramientas ETL, más tiempo ahorrará su equipo.
-
Código abierto: las arquitecturas de código abierto
generalmente ofrecen más flexibilidad y, por lo general, no lo vinculan a un
solo proveedor.
-
Portabilidad: la portabilidad es un punto importante
porque cada vez más empresas confían en modelos de nube híbrida para crear
integraciones de datos solo una vez y luego ejecutarlas desde cualquier
lugar.
-
Facilidad de uso: las herramientas ETL deben ser fáciles
de aprender y usar. Además, es beneficioso que las herramientas ofrezcan una
interfaz de usuario con la que pueda visualizar fácilmente sus
canalizaciones de datos.
-
Modelo de precios transparente: su proveedor no debe
cobrar un recargo bajo ninguna circunstancia si aumenta la cantidad de
conectores o el volumen de datos.
-
Compatibilidad con la nube: su herramienta ETL debe
funcionar de forma nativa en un entorno de nube única, de múltiples nubes o
de nube híbrida.
Las plataformas ETL que están disponibles en el mercado ahorran dinero y
tiempo en gran medida.
Algunas de ellas son herramientas comerciales con licencia y pocas son
herramientas gratuitas de código abierto.
Un resumen de las principales herramientas y uso recomendado sería:
-
Xplenty: empresas que utilizan cargas de trabajo ETL y / o
ELT; empresas que prefieren una interfaz intuitiva de arrastrar y soltar que
puedan utilizar los empleados no técnicos; empresas que necesitan muchas
integraciones prediseñadas; empresas que valoran la seguridad de los datos.
-
Talend: empresas que prefieren una solución de código
abierto; empresas que necesitan muchas integraciones prediseñadas.
-
Stitch: empresas que prefieren una solución de código
abierto; empresas que prefieren un proceso ELT sencillo; empresas que no
requieren transformaciones complejas.
-
Informática PowerCenter: grandes empresas con grandes
presupuestos y exigentes necesidades de rendimiento.
-
Oracle Data Integrator: clientes existentes de Oracle;
empresas que utilizan cargas de trabajo ELT.
-
Skyvia: empresas que quieren una solución sin código;
empresas que no necesitan realizar muchas transformaciones.
-
Fivetran: empresas que necesitan muchas integraciones
preconstruidas; empresas que necesitan la flexibilidad de varios almacenes
de datos.
Hay muchas y sería muy largo analizar una a una, por eso te dejamos el
nombre de algunas de ellas (casi todos yo creo).
Aquí te dejamos el nombre de 21 herramientas ETL
1) Xplenty
2) Skyvia
3) Voracidad de IRI
4) Xtract.io
5) Dataddo
6) DBConvert Studio de SLOTIX sro
7) Informatica - PowerCenter
8) IBM - Servidor de información Infosphere
9) Integrador de datos de Oracle
10) Microsoft - Servicios integrados de SQL Server (SSIS)
11) Ab Initio
12) Talend - Talend Open Studio para la integración de datos
13) Software de integración de datos CloverDX
14) Integración de datos de Pentaho
15) Apache Nifi
16) SAS - Estudio de integración de datos
17) SAP - Integrador de datos de BusinessObjects
18) Generador de almacenes de Oracle
19) ETL de Sybase
20) DBSoftlab
21) Jaspe
El proceso ETL se utiliza a menudo en el contexto de big data y aplicaciones de inteligencia empresarial.
Recordar que big data es el almacenamiento de gran cantidad de datos.
Las áreas típicas de aplicación de ETL son donde los datos deben procesarse,
proporcionarse y analizarse en grandes cantidades.
Ejemplos de áreas de aplicación son:
Almacenamiento de datos en un almacén de datos
Suministro de datos para aplicaciones de BI
Extracción de datos de entornos de bases de datos distribuidas o bases de
datos basadas en la nube
Migración de datos entre diferentes aplicaciones
Por último, pero no menos importante, el proceso ETL se utiliza para migrar
datos entre diferentes aplicaciones y para replicar datos con fines de
respaldo.
¿Te ha gustado la web
Proceso ETL? Pulsa en Compartir. Gracias
© Se permite la total o parcial reproducción del contenido, siempre y cuando se reconozca y se enlace a este artículo como la fuente de información utilizada.