5.2.1 Almacenes de datos
(Data Warehouse).
Un Data warehouse (almacén de datos) es una base de datos corporativa
que se caracteriza por integrar y depurar información de una o más fuentes
distintas, para luego procesarla permitiendo su análisis desde infinidad de
perspectivas y con grandes velocidades de respuesta.
Los almacenes de datos tienen una orientación corporativa que pretende
conseguir que cualquier departamento pueda acceder a la información de
cualquiera de los otros mediante un único medio, así como obligar a que los
mismos términos tengan el mismo significado para todos. Un data mart es un
almacén de datos históricos relativos a un departamento de una organización,
así que puede ser simplemente una copia de parte de un data warehouse para uso
departamental.
El término Datawarehouse fue acuñado por primera vez por Bill Inmon se caracteriza
por ser:
·
Orientado a temas
Temas de interés a las áreas de la corporación o compañía
sobre las que se requiere hacer un análisis.
·
Integrado
Consiste en poner en un formato consistente los datos
provenientes de diversas fuentes.
·
No volátil
Una vez entrados los datos al almacén, estos no cambian,
debido a que el propósito de un almacén de datos es permitir el análisis de lo
que ha ocurrido.
·
De tiempo variante
Cambios sobre el tiempo para descubrir tendencias e
identificar patrones ocultos; es exacta para algún momento en el tiempo.
Otra característica del datawarehouse ya que permiten saber la procedencia de la
información, su periodicidad de refresco, su fiabilidad, forma de cálculo, entre otras.
Los
objetivos que deben cumplir los metadatos, según el colectivo al que va
dirigido, son:
v *Dar soporte al usuario final, ayudándo a acceder al
datawarehouse con su propio lenguaje de negocio, indicando qué información hay
y qué significado tiene.
v *Ayudar a construir consultas, informes y análisis,
mediante herramientas de Business Intelligence como DSS, EIS o CMI.
v *Dar soporte a los responsables técnicos del
datawarehouse en aspectos de auditoria, gestión de la información histórica,
administración del datawarehouse, elaboración de programas de extracción de la
información, especificación de las interfaces para la realimentación a los
sistemas operacionales de los resultados obtenidos.
Metadatos (datos acerca de los datos)
Describen cuál es la estructura de los datos que se van a almacenar y
cómo se relacionan.
En el ámbito de los data warehouse el metadato juega un papel
fundamental, su función consiste en recoger todas las definiciones de la
organización y el concepto de los datos en el almacén de datos, debe contener
toda la información concerniente a:
Funciones ETL (Extracción, Transformación y
Carga):
Se crea a
partir de los sistemas operaciones de una compañía:
Extracción: obtención de
información de las distintas fuentes tanto internas como externas.
Transformación: filtrado,
limpieza, depuración, homogeneización y agrupación de la información.
Carga: organización
y actualización de los datos y los metadatos en la base de datos.
Middleware

API La interfaz de programación de aplicaciones
Lenguaje y formato de mensaje utilizado por un programa para activar e
interactuar con las funciones de otro programa o de un equipo físico.
Diferencias entre Base de Datos y Almacén de Datos.
Base de Datos
Operacional
|
Almacén de
Datos
|
Datos operacionales
|
Datos del negocio para Información
|
Orientado a aplicación
|
Orientado al sujeto
|
Actual
|
Actual + Histórico
|
Detallada
|
Detallada + Resumida
|
Cambia continuamente
|
Estable
|
Estructura lógica del Almacén de Datos.
La estructura
lógica de un Almacén de Datos está compuesta por los siguientes niveles:
· Metadatos. Describen la estructura de
los datos contenidos en el almacén.
Están en una
dimensión distinta al resto de niveles.
· Datos detallados actuales. Obtenidos
directamente del procesado de los datos.
Forman el nivel más bajo de detalle.
Ocupan mucho
espacio.
Se almacenan
en disco, para facilitar el acceso.
· Datos detallados históricos. Igual que
los anteriores, pero con datos correspondientes al pasado.
Se suelen
almacenar en un medio externo, ya que su acceso es poco frecuente.
· Datos ligeramente resumidos. Primer
nivel de agregación de los datos detallados actuales.
Corresponden a
consultas habituales.
Se almacenan
en disco.
· Datos
muy resumidos. Son el nivel más alto de agregación.
Corresponden a
consultas que se realizan muy a menudo y que se deben obtener muy rápidamente.
Suelen estar
separados del Almacén de datos, formando Supermercados de Datos (Data Marts).
Estructura física del Almacén de Datos.
La estructura
física puede presentar cualquiera de las siguientes configuraciones:
Arquitectura
centralizada. Todo el Almacén de datos se encuentra en un
único servidor.
Arquitectura
distribuida. Los datos del Almacén se reparten entre varios
servidores. Asignando cada servidor a uno o varios temas lógicos.
Arquitectura
distribuida por niveles. Refleja la estructura lógica del
Almacén, asignando los servidores en función del nivel de agregación de los
datos que contienen. Un servidor está dedicado para los datos de detalle, otro
para los resumidos y otro para los muy resumidos.
Cuando los
datos muy resumidos se duplican en varios servidores para agilizar el acceso se
habla de Supermercados de datos (Data Marts).
Data Warehouse en la nube.
La primera
área de transformación es el impulso para aumentar
la agilidad general. La gran mayoría de los departamentos de TI están
experimentando un rápido aumento de la demanda de datos. Los directivos quieren
tener acceso a más y más datos históricos, mientras que al mismo tiempo, los
científicos de datos y los analistas de negocios están explorando formas de
introducir nuevos flujos de datos en el almacén para enriquecer el análisis
existente, así como impulsar nuevas áreas de análisis.
La segunda
área de transformación gira en torno a la necesidad de mejorar el control de costes. Existe una
creciente necesidad de hacer más con cada vez menos recursos, al mismo tiempo
que se garantiza que todos los datos sensibles y estratégicos estén
completamente asegurados, a lo largo de todo el ciclo de vida, de la manera más
rentable.
La importancia
de la nube para el data warehouse está directamente vinculado a tres factores
clave:
Mejora
de la agilidad: Con mucho trabajo puesto ahora en
torno al big data, las empresas buscan aprovechar los nuevos flujos de datos y
nuevos tipos de análisis más ricos para apoyar e impulsar nuevas áreas, tales
como: analítica de clientes de 360º, anaĺisis predictivo, detección de fraude,
análisis de IoT y el establecimiento de los datos como centro de beneficio. Es
más rápido, más fácil y más eficiente iniciar estos nuevos proyectos centrados
en los datos utilizando los servicios en la nube.
Mayor
control de costes: Los activos de datos deben estar
protegidos a lo largo de todo el ciclo de vida. Los servicios en la nube deben
facilitar todo esto, siendo más rentables ya que todas las características de
seguridad se pueden habilitar de forma predeterminada y mejorada, y actualizada
de forma transparente.
Co-Localización
para una carga más rápida: La mayoría de los data warehouses
generan datos directamente desde aplicaciones clave, como entrada de pedidos,
ventas, finanzas y fabricación. Por lo tanto, tiene mucho sentido ubicar
conjuntamente el data warehouse junto con los sistemas fuente que ya se estén
ejecutándose en la nube. La ubicación conjunta ofrece una carga de datos más
rápida, lo que significa que los usuarios obtienen un acceso más oportuno a sus
datos.
https://www.youtube.com/watch?v=IUV02qF8Ezw&feature=youtu.be
No hay comentarios.:
Publicar un comentario