miércoles, 6 de diciembre de 2017

5.2.1 Almacenes de datos (Data Warehouse).

5.2.1 Almacenes de datos (Data Warehouse).
Image result for ralph kimball
Ralph Kimball



Un Data warehouse (almacén de datos) es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta.

Los almacenes de datos tienen una orientación corporativa que pretende conseguir que cualquier departamento pueda acceder a la información de cualquiera de los otros mediante un único medio, así como obligar a que los mismos términos tengan el mismo significado para todos. Un data mart es un almacén de datos históricos relativos a un departamento de una organización, así que puede ser simplemente una copia de parte de un data warehouse para uso departamental.

El término Datawarehouse fue acuñado por primera vez por Bill Inmon se caracteriza por ser:

·         Orientado a temas
Temas de interés a las áreas de la corporación o compañía sobre las que se requiere hacer un análisis.
·         Integrado
Consiste en poner en un formato consistente los datos provenientes de diversas fuentes.
·         No volátil
Una vez entrados los datos al almacén, estos no cambian, debido a que el propósito de un almacén de datos es permitir el análisis de lo que ha ocurrido.
·         De tiempo variante
Cambios sobre el tiempo para descubrir tendencias e identificar patrones ocultos; es exacta para algún momento en el tiempo.



Otra característica del datawarehouse ya que permiten saber la procedencia de la información, su periodicidad de refresco, su fiabilidad, forma de cálculo, entre otras.

Image result for metadatosLos metadatos serán los que permiten simplificar y automatizar la obtención de la información desde los sistemas operacionales a los sistemas informacionales.

Los objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido, son:
v  *Dar soporte al usuario final, ayudándo a acceder al datawarehouse con su propio lenguaje de negocio, indicando qué información hay y qué significado tiene.
v  *Ayudar a construir consultas, informes y análisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI.
v  *Dar soporte a los responsables técnicos del datawarehouse en aspectos de auditoria, gestión de la información histórica, administración del datawarehouse, elaboración de programas de extracción de la información, especificación de las interfaces para la realimentación a los sistemas operacionales de los resultados obtenidos.
Proceso de construcción de un almacén de datos




Elementos que integran un almacén de datos

Metadatos (datos acerca de los datos)
Describen cuál es la estructura de los datos que se van a almacenar y cómo se relacionan.
En el ámbito de los data warehouse el metadato juega un papel fundamental, su función consiste en recoger todas las definiciones de la organización y el concepto de los datos en el almacén de datos, debe contener toda la información concerniente a:

Funciones ETL (Extracción, Transformación y Carga):

Se crea a partir de los sistemas operaciones de una compañía:
Extracción: obtención de información de las distintas fuentes tanto internas como externas.
Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la información.
Carga: organización y actualización de los datos y los metadatos en la base de datos.

Middleware
Image result for Elementos que integran un almacén de datosEs un término genérico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas. Estos servicios funcionan como una capa de abstracción de software distribuida, que se sitúa entre las capas de aplicaciones y las capas inferiores (sistema operativo y red).

API La interfaz de programación de aplicaciones
Lenguaje y formato de mensaje utilizado por un programa para activar e interactuar con las funciones de otro programa o de un equipo físico.

Diferencias entre Base de Datos y Almacén de Datos.

Base de Datos Operacional
Almacén de Datos
Datos operacionales
Datos del negocio para Información
Orientado a aplicación
Orientado al sujeto
Actual
Actual + Histórico
Detallada
Detallada + Resumida
Cambia continuamente
Estable




Estructura lógica del Almacén de Datos.

La estructura lógica de un Almacén de Datos está compuesta por los siguientes niveles:
·       Metadatos. Describen la estructura de los datos contenidos en el almacén.
Están en una dimensión distinta al resto de niveles.
·       Datos detallados actuales. Obtenidos directamente del procesado de los datos.
Forman el nivel más bajo de detalle.
Ocupan mucho espacio.
Se almacenan en disco, para facilitar el acceso.
·      Datos detallados históricos. Igual que los anteriores, pero con datos correspondientes al pasado.
Se suelen almacenar en un medio externo, ya que su acceso es poco frecuente.
·         Datos ligeramente resumidos. Primer nivel de agregación de los datos detallados actuales.
Corresponden a consultas habituales.
Se almacenan en disco.
·         Datos muy resumidos. Son el nivel más alto de agregación.
Corresponden a consultas que se realizan muy a menudo y que se deben obtener muy rápidamente.


Suelen estar separados del Almacén de datos, formando Supermercados de Datos (Data Marts).
Estructura física del Almacén de Datos.

La estructura física puede presentar cualquiera de las siguientes configuraciones:
Arquitectura centralizada. Todo el Almacén de datos se encuentra en un único servidor.
Arquitectura distribuida. Los datos del Almacén se reparten entre varios servidores. Asignando cada servidor a uno o varios temas lógicos.
Arquitectura distribuida por niveles. Refleja la estructura lógica del Almacén, asignando los servidores en función del nivel de agregación de los datos que contienen. Un servidor está dedicado para los datos de detalle, otro para los resumidos y otro para los muy resumidos.
Cuando los datos muy resumidos se duplican en varios servidores para agilizar el acceso se habla de Supermercados de datos (Data Marts).

Data Warehouse en la nube.
Image result for Data Warehouse en la nube.
La primera área de transformación es el impulso para aumentar la agilidad general. La gran mayoría de los departamentos de TI están experimentando un rápido aumento de la demanda de datos. Los directivos quieren tener acceso a más y más datos históricos, mientras que al mismo tiempo, los científicos de datos y los analistas de negocios están explorando formas de introducir nuevos flujos de datos en el almacén para enriquecer el análisis existente, así como impulsar nuevas áreas de análisis.


La segunda área de transformación gira en torno a la necesidad de mejorar el control de costes. Existe una creciente necesidad de hacer más con cada vez menos recursos, al mismo tiempo que se garantiza que todos los datos sensibles y estratégicos estén completamente asegurados, a lo largo de todo el ciclo de vida, de la manera más rentable.

La importancia de la nube para el data warehouse está directamente vinculado a tres factores clave:
Mejora de la agilidad: Con mucho trabajo puesto ahora en torno al big data, las empresas buscan aprovechar los nuevos flujos de datos y nuevos tipos de análisis más ricos para apoyar e impulsar nuevas áreas, tales como: analítica de clientes de 360º, anaĺisis predictivo, detección de fraude, análisis de IoT y el establecimiento de los datos como centro de beneficio. Es más rápido, más fácil y más eficiente iniciar estos nuevos proyectos centrados en los datos utilizando los servicios en la nube.
Mayor control de costes: Los activos de datos deben estar protegidos a lo largo de todo el ciclo de vida. Los servicios en la nube deben facilitar todo esto, siendo más rentables ya que todas las características de seguridad se pueden habilitar de forma predeterminada y mejorada, y actualizada de forma transparente.
Co-Localización para una carga más rápida: La mayoría de los data warehouses generan datos directamente desde aplicaciones clave, como entrada de pedidos, ventas, finanzas y fabricación. Por lo tanto, tiene mucho sentido ubicar conjuntamente el data warehouse junto con los sistemas fuente que ya se estén ejecutándose en la nube. La ubicación conjunta ofrece una carga de datos más rápida, lo que significa que los usuarios obtienen un acceso más oportuno a sus datos.



https://www.youtube.com/watch?v=IUV02qF8Ezw&feature=youtu.be

No hay comentarios.:

Publicar un comentario

BI Merca672IGE knma