Hoy en día cada vez se oye más hablar del Data Warehouse o Ware House.
Vamos hacer un recorrido por todo lo que significa e implica este término y cómo se lleva a cabo.
Puede parecer muy complicado, pero vamos a tratar de explicarlo de forma sencilla para que todo el mundo lo pueda entender.
Aprendérás términos como data mining, OLAP, ETL, etc
Indice de Contenidos:
-
¿Qué es Fata WareHouse?
-
¿Para Qué Sirve Data Ware House?
-
Ejemplos Data WareHouse
-
Procesos de Analisis y Software en DataWareHouse
-
Data Ware House ETL
-
OLAP Data Ware House
-
Data Mining
-
Diferencia entre OLAP y DataMining
Viene del Inglés
Data = datos y
WareHouse = almacén, por eso, una data warehouse es un almacén de datos.
Esta palabra se utiliza para hablar de un
almacén de datos diseñado para permitir las actividades de inteligencia de un negocio.
En definitiva sirve para ayudar analizar los datos recopilados por la empresa con el fin de mejorar su rendimiento.
Un Data Warehouse o Almacén de Datos es una gran base de datos, normalmente medida en gigabytes (miles de millones de caracteres) o terabytes (billones de letras), que recoge información de múltiples fuentes y que su actividad se centra en la Toma de
decisiones, es decir, en el análisis de la información en vez de su captura.
Todo el mundo sabe hoy en día que la información es un potente
activo del que se pueden obtener importantes beneficios y ventajas
competitivas para cualquier organización.
De hecho las empresas valoran los
datos como un activo más de la empresa.
Estos datos pueden darnos
información acerca de clientes, competidores, etc.
De ahí nacen las Datas
Warehouses.
Los datos pueden provenir de los sistemas desarrollados
internamente por la empresa, de las aplicaciones compradas, o de los datos
comprados a otras empresas o fuentes de datos externas.
Estos datos ayudan a los
analistas para tomar decisiones en una organización.
Es importante que la empresa cuente con
un único DataWarehouse.
Así, los miembros de la organización podrán acceder a una misma fuente de
información organizada según convenciones determinadas por el management.
El término "Data WareHouse" fue acuñado por primera vez por
Bill Inmon en 1990.
De acuerdo con Inmon,
una data warehouse es un conjunto
de datos estructurados orientados por temas integrados, variables con el
tiempo y no volátiles empleados para tomar decisiones.
Desglosemos la definición:
-
Orientados por temas: Colección de información relacionada
organizada alrededor de un tema central.
Cuando se habla de datawarehouse se
hace referencia a un sistema que esta organizado en base a temas o
asignaturas especiales, que permite entonces que los datos y la información
de mismo tipo quede siempre conectada.
Ejemplos de temas pueden ser
clientes, productos, campañas, etc.
-
Integrados: los datos se obtienen de fuentes diferentes, por
ejemplo de los diferentes departamentos de una organización, pero se deben
aplicar técnicas de integración (agrupación) de los datos.
Los datos se
organizan por temas para facilitar su acceso y entendimiento por parte de
los usuarios finales.
Por ejemplo, todos los datos sobre clientes pueden ser
consolidados en una única tabla del datawarehouse.
De esta forma, las
peticiones de información sobre clientes serán más fáciles de responder dado
que toda la información reside en el mismo lugar.
-
No volátiles: quiere decir que los datos no van a cambiar con el
tiempo una vez que se encuentran en el almacén.
El almacén de información de
un datawarehouse existe para ser leído, pero no modificado.
La información
ni se modifica ni se elimina.
-
Variables con el Tiempo: Los cambios producidos en los datos a lo
largo del tiempo quedan registrados para que los informes que se puedan
generar reflejen esas variaciones.
Otras formas que podemos encontrar de llamar a las data
warehouse pueden ser:
dw, data wharehouse, data warhouse o simplemente
almacén de datos.
Data Warehousing, es el proceso que
facilita la creación y explotación de un Data Warehouse.
Además de una base de datos, en una data warehouse, se incluyen
herramientas de extracción, transporte, transformación y carga de los datos
(
ETL), un procesamiento analítico en línea (OLAP) para analizarlos, herramientas de análisis de clientes, y
otras aplicaciones que gestionan el proceso de recopilación de datos y la
entrega a los usuarios como el data mining.
Luego veremos algunas de estas aplicaciones.
- Para tener un mayor conocimiento del negocio
- Para tomar mejores decisiones y en un tiempo menor.
- Para mejorar y ser más efectivos.
- Para no perder distancia con la competencia.
- En definitiva para aumentar los ingresos.
Las data warehouse son la base para los sistemas
de gestión de relaciones con los clientes ya que pueden ser utilizados para
la consolidación de los datos del cliente y la identificación de áreas de
satisfacción y/o frustración del cliente.
También se utilizan para la detección de fraudes, análisis de
reposicionamiento de producto, el descubrimiento de centros de beneficio y
gestión de activos corporativos.
Veamos más
casos concretos con ejemplos:
Para los minoristas, un almacén de datos o data warehouse puede
ayudar a identificar las características demográficas de los clientes,
identificar los patrones de compra y mejorar las respuestas de correo
directo.
Para los bancos, puede ayudar en la detección de fraude de
tarjetas de crédito, ayudar a identificar a los clientes más rentables, y
poner de relieve los clientes más fieles.
Las empresas de telecomunicaciones la utilizan para predecir qué
clientes tienen más probabilidades de cambiar de compañía y luego aplicarles
incentivos especiales para quedarse.
Las compañías de seguros la utilizan para el análisis de las
reclamaciones para ver qué procedimientos se reivindican y para identificar
patrones de los clientes de riesgo.
Los fabricantes pueden utilizarla para comparar los costos de cada
una de sus líneas de productos en los últimos años, a determinar qué
factores producen incrementos y ver qué efecto tuvieron estos aumentos en
los márgenes globales.
Ahora vamos hacer un breve recorrido por esas otras herramientas que toda data warehouse debe tener.
La mayoría de los data warehouse tiene la siguiente arquitectura:
Expliquemos los pasos ETL y de análisis.
El proceso de extracción de datos de los sistemas de origen y
ponerla en la data warehouse se denomina comúnmente
proceso ETL.
ETL (Extract, Transform and Load)
es un proceso responsable de la
extracción de datos de los sistemas de origen y de colocarlo en un almacén
de datos o data warehouse.
ETL implica las siguientes tareas:
Extracción de datos: Es lo primero que hace una
herramienta ETL.
Se trata de obtener la información de las distintas
fuentes de origen, tanto internas como externas.
Durante la extracción, se identifica
los datos deseados y se extrae de muchas fuentes diferentes, incluyendo los
sistemas de bases de datos y aplicaciones.
Después de la extracción de
datos, tienen que ser transportados físicamente al sistema de destino o a un
sistema intermedio para su posterior procesamiento y/o transformación.
Transformación: es el filtrado, limpieza, depuración,
homogeneización y agrupación de la información.
Incluye la agrupación de los
datos de las diferentes fuentes.
La transformación se produce mediante
el uso de reglas o tablas de consulta o mediante la combinación de los datos
con otros datos.
Carga: es el proceso de escribir los datos en la date warehouse.
La
fase de carga es el momento en el cual los datos de la fase anterior
(transformación) son cargados en el sistema de destino.
Diseñar y mantener el proceso de ETL
es a menudo considerada como
una de las partes más difíciles y que requieren más recursos de un
proyecto de data warehouse.
La mayoría de los programas de data warehouse utilizan
herramientas ETL para gestionar este proceso.
El software ETL
extrae datos,
transforma los valores de los datos inconsistentes, limpia los datos
"malos", filtra los datos y carga los datos en una data warehouse de
destino.
Algunas de estas herramientas más utilizadas son:
-
Oracle Warehouse Builder
-
IBM Websphere DataStage
-
Microsoft SQL Server Integration Services (SSIS)
Ya tenemos los datos correctamente, Ahora es el momento de analizarlos.
si quieres saber más sobre los procesos ETL visita:
¿Qué es ETL?.
OLAP = On-Line Analytical Processing =
Procesamiento analítico en línea.
Es el
método más utilizado
para analizar y evaluar
los datos de la data warehouse en línea.
Permite a los gerentes y analistas obtener una idea de la información
.
Para analizar los datos se utilizan un conjunto de operaciones.
Estas
operaciones se realizan mucho más fácilmente con
software o programas OLAP,
que suelen incluir los programas data warehouse.
Para los programas OLAP un
tiempo de respuesta es una medida de su eficacia.
OLAP
permite al usuario extraer y ver con facilidad y de forma
selectiva los datos desde diferentes puntos de vista.
Un ejemplo, un usuario puede solicitar que se
analizaron los datos para mostrar una hoja de cálculo que muestra todos los
productos una pelota de playa de una empresa que se venden en Madrid en el
mes de julio.
Además debe comparar las cifras de ingresos con los de los mismos
productos en septiembre y luego ver una comparación de otras ventas de
productos en Madrid en el mismo período de tiempo.
Data Mining significa "
minería del datos".
En
general, el
datamining (a veces descubrimiento de conocimiento) es el
proceso de
analizar los datos desde diferentes perspectivas y
resumirlos en información útil; información que puede ser utilizada
para aumentar los ingresos, reducir los costes, o ambos.
El data
mining descubre patrones ocultos en los datos.
Técnicamente, el datamining es el proceso de encontrar
correlaciones entre los patrones o de los campos en grandes bases de datos
como en los de una data warehouse.
Un ejemplo, una cadena de supermercados utiliza la
capacidad de extracción de datos de Oracle software para analizar los
patrones de compra locales.
Descubrieron que cuando los hombres compran
pañales los jueves y los sábados, también tendían a comprar cerveza.
Un
análisis más detallado mostró que estos compradores normalmente hicieron su
compra semanal los sábados.
Los jueves, sin embargo, sólo han comprado
algunos artículos.
El minorista llegó a la conclusión de que debería comprar
cerveza para tenerla disponible para el próximo fin de semana.
La cadena de
supermercados podría utilizar esta información recientemente descubierta de
diversas maneras para aumentar los ingresos.
Por ejemplo, podrían mover la
estantería de la cerveza más cerca de la de los pañales y los jueves no
harían ninguna oferta para pañales y cerveza.
Si quieres saber mucho más sobre el datamining visita el siguiente enlace:
DataMining.
OLAP y Data Mining se utilizan para resolver diferentes tipos de problemas analíticos.
Con
OLAP se resumen los datos y se hacen pronósticos.
Por ejemplo, responde a cuestiones operativas como "¿Cuál es el promedio de ventas de automóviles, por región y por año?".
Data Mining descubre patrones ocultos en los datos y opera a un nivel detallado en lugar de un nivel de resumen.
Por ejemplo, en una industria de las telecomunicaciones, donde la pérdida de clientes es un factor clave, la minería de datos podría responder a preguntas como:
"¿Quién es probable que cambie los proveedores de servicios y cuáles son las
razones para que cambien?"
Si te ha gustado
Data WareHouse haz clic en Compartir, Gracias:
© Se permite la total o parcial reproducción del contenido, siempre y cuando se reconozca y se enlace a este artículo como la fuente de información utilizada.