resumen datawarehouse

Upload: cristian-fuentes

Post on 07-Jul-2018

224 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/18/2019 Resumen DataWarehouse

    1/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1

    LA INTELIGENCIA COMERCIAL:Es un conjunto de productos y servicios que permiten acceder a datos, analizarlos y convertirlos eninformación. Representa una iniciativa corporativa amplia que incluye DataWarehouse y DataMining.naliza la información para tomar decisiones, apoya a la gerencia de la empresa. !ermite entender lasnecesidades de los clientes."E#E$%DD DE #&"'R #&" %"(&RM#%)" %"'E*RD!ro+lemas

    %ne-istencia de datos corporativos%slas información de un mismo cliente separada en sistemas de distintas /reas0(alta de datos históricos.

    LOS SSD (SISTEMAS PARA EL SOPORTE DE DECISIONES): HISTORIA:#iclos manuales

    1 Recepción demorada del informe1 !2rdida de performance de los sistemas operacionales

    E-tracción y vuelco de datos operacionales en las !#3s1 Mara4a de !rogramas de e-tracción1 (alta de #redi+ilidad Distintos momentos, con distintos algoritmos....1 (alta de productividad1 (alta de 5e-i+ilidad

     NUEVO ENFOQUE DE LOS DSS:

    1 #onsolidar los datos en un nuevo entorno, integrado, con perspectiva histórica y con facilidad demanipulación e6data 7 datos reunidos y sincronizados electrónicamente0

    1 8a solución se analiza desde dos enfoques• Desde la 'ecnolog9a y su evolución.• Desde los tipos de sistemas e-istentes.

    "ecesidad de nuevas herramientas con :or;station heterog2neas y usuarios autónomos•

  • 8/18/2019 Resumen DataWarehouse

    2/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 11 8istar pr2stamos hechos al cliente ? y fechas de pago en que se demoró1 Mostrar todos los clientes que compraron el producto ? el a4o pasado

     Análisis multidimensional:1 Mostrar ingresos trimestrales por ventas a grandes clientes por zona drill0 en los a4os @AAB y

    @AAC $lice0

    Modelado:

    1 Desgaste del cliente

    Segmentación:1 #lientes que responden a descuentos1 #lientes que no responden a promociones

    DC (Descubrimiento de Conocimiento):1 n/lisis de a=nidad

    DATAWAREHOUSE

    Repositorio de datos históricos referidos a un tema en particular. #olección de data marts m/speque4os. !lataforma de hard:are, soft:are y datos separada que permita a un hom+re de negocios

    tomar decisiones.

    #olección de datos derivados (Según !"" In#$n)1 &rientados a un tema FG una transacción01 %ntegrados1 Haria+les en el tiempo1 "o vol/tiles

    %ntegra datos de diferentes fuentes u or9genes $istemas &8'!, archivos planos, información e-terna,etc.0$us datos se usan para la toma de decisiones. 8os data:arehouses des normalizan información con el=n de

    1 liviar la carga de los servidores1 ca+ar con datos sucios1 $eguridad en el acceso a los datos corporativos.1 Ina Jnica verdad

    ESCALAILIDAD HARD

    1 $M!s Multiprocesador $im2trico. #omparten memoria f9sica y +us.1 #lJster1 M!!s

    HERRAMIENTAS

    1 De modelado y dise4o de datos #$E0 o modelos de datos prefa+ricados por industria1 De E'81 De administración

    • !lani=cación de capacidad• Kac; up• De seguridad• De registro de uso• De control de rendimiento

    1 De usuario =nal• !ara

  • 8/18/2019 Resumen DataWarehouse

    3/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1

    SISTEMAS OLTP (ON%LINE TRANSACTIONAL PROCESSING):

    1 8as actividades incluyen comprar, vender, producir, transportar.1 $on puramente operacionales.1 Isa normalización.

    SISTEMAS OLAP (ON%LINE ANALYTICAL PROCESSING):

    $istemas especialmente dise4ados para el an/lisis de la información en apoyo a la toma de decisiones.1 8as actividades incluyen presupuestar, evaluar, plani=car. $on orientados a la toma de

    decisiones.1 Re5eja lo que no hay en la normalización.1 "o necesita consistencia1 8a unidad es la consulta1 $e apoya en información histórica y proyectada1 Itiliza hechos, medidas y dimensiones con las cuales crea el modelo estrella.1 $e ve en t2rminos de echos o Medidas, !ar/metros o Dimensiones.

    Requerimientos de un $istema &8!1 R/pido, 5e-i+le y con acceso a grandes volJmenes de datosN1 R/pido acceso a datos y r/pidos c/lculos1 (uertes capacidades anal9ticas formulaciones estad9sticas complejas01 %nterfaces amiga+les1 Histas 5e-i+les para realizar c/lculos impensados y ofrecer modalidades de e-posición

    gr/=cos, ta+las, etc.01 $oporte a mJltiples usuarios la cantidad de usuarios crece d9a a d9a.

    OLAP VERSUS DW$urgieron en forma independiente.

    1 &8! hace 2nfasis en proceso de satisfacción al usuario =nal y de e-plotación de la información

    1 DW hace hincapi2 en la o+tención y almacenamiento de los datosN proceso para o+tener datosseguros, consistentes, integrados y disponi+les.Ina solución ro+usta es la utilización de am+os. !orque no $

  • 8/18/2019 Resumen DataWarehouse

    4/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1 'iempo Repuesta G @,B De seg. a minutos!antallas (ijas Haria+lesInidad 'ransacción #onsulta#aracter9sticas Read LWrite Read(oco %ngreso de Datos %nformacióncceso a Datos Decenas MillonesHalores #orrientes istóricos y proyectados"aturaleza Din/mico Est/tico hasta

    Refresh&rganización !or aplicación seguros de vida, salud,

    auto....!or tema siniestros, pólizas,clientes

    Estructura "ormalizada Des normalizada*ranularidad Detallada #on cierto nivel de sumarización

    DATAMININGDescu+rimiento de patrones y tendencias ocultas.

    EVOLUCIONES DIVERGENTES

    • Data Mart

    • DW &peracional o &D$DATA MART

    • $u+set de una gran DW.• Mejor performance.• M/s simple para entender y mantener.• utonom9a de los usuarios.• Replica datos y descentraliza accesos.

    We+housing %ntegración de DW con tecnolog9as We+ %ntranet y E-tranet0.• Hentajas

    $encillo y económico.

    Disponi+ilidad. plicaciones din/micas.

    • Desventajas Helocidad de respuesta. 8imitaciones para visualizar reportes complejos. Di=cultan para transmitir im/genes pesadas.

    C

  • 8/18/2019 Resumen DataWarehouse

    5/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1

    MODELO MULTIDIMENSIONAL:

    1 (acilitar la de=nición y el manejo de datos sumarizados y an/lisis a mJltiples niveles.1 $e puede de=nir un conjunto de datos en t2rminos de mJltiples dimensiones un

    hipercu+o01 8as dimensiones pueden ser jer/rquicas y permiten distintos niveles de agregación1 Hisualizar los datos, desde mJltiples perspectivas.

    parece para responder a nuevos o+jetivos

    1 Requerimientos del an/lisis del negocio.1 (/cil y o+via.1 'iene que ser 5e-i+le a los cam+ios del negocio.1 De+e descri+ir e-actamente el pasado.1 "o se de+e +uscar solamente una herramienta de sumarización,1 !ara dise4ar no vale el DER.1 Es fundamental comprender el negocio para la selección correcta de las dimensiones.

    1 Es muy importante disponer de herramientas soft:are adecuadas para e-plotar elmodelo.

    #omo crear un modelo Multidimensional

    >. %denti=car las medidas.@. %denti=car las dimensiones y jerarqu9as.B. Determinar la granularidad.C. #onstruir el modelo estrella.O. Heri=car el modelo con los usuarios y re=narlo.P. Determinar la po+lación del modelo, mediante un mapeo de los datos.

    Hisualización•  'a+ular

    O

  • 8/18/2019 Resumen DataWarehouse

    6/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1 8o Jnico que importa es el contenido. Es la mejor parar leer los valores e-actos y actuales. Es detallada al m/-imo. !ermite ver los valores y cantidades de ventas.

    • *ra=ca $on gr/=cos contenidos so+re los nJmeros. Descri+en tendencias. Muestran relaciones entre los valores. pro-iman m/s a la realidad.

    #recimiento $e de+e considerar la granularidad, dado que determinar/ el crecimiento de la(ac 'a+le. Isar solo las dimensiones necesarias.

    ipercu+o

    • M/s de B dimensiones.• #ompuesto por una serie de ejes.

    • $in l9mite de dimensiones.Densidad del cu+o

    In cu+o es denso cuando las dimensiones tienen todos sus miem+ros, $olo se da en muypocos casos. $i no se forman agujeritos de información. Esto sucede en las com+inaciones dedimensiones donde no hay medidas asociadas.

    H9nculo entre DW, MM y &8!

    8o ideal es dise4ar especialmente un Data:arehouse para e-plotar un

    Modelo Multidimensional a trav2s de una herramienta &8!.

    DW & MM & He''#!en* OLAP + SOLUCION OLAP

    P

  • 8/18/2019 Resumen DataWarehouse

    7/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1

    MEDIDAS:

    1 %nformación cuantitativa1 Representan el cu/nto de una consulta1 !rimitivas o calculadas1 $e almacenan en la (#' 'K8E1 $on lo que quiero mostrar1 !ueden ser !rimitivas o #alculadas1 'ipos de Medidas

    o ditivas $on suma+les.o $emi6ditivas $olo pueden ser sumadas a veces. Ej. $toc;.

    o "o aditivas "o tienen sentido sumarlas. Ej. !orcentaje.DIMENSIONES:

    1 #ali=cadores que dan sentido a las medidas1 $e almacenan en las 'K8 DE D%ME"$%&"E$, junto con sus atri+utos1 $e guardan cómo códigos num2ricos o pocos caracteres1 !ueden tener jerarqu9as, que son distintos niveles de sumarización1 !ueden tener mJltiples jerarqu9as. !ermiten mJltiples niveles de agregación.

    o  D9a $emana 4o o  D9a Mes 4o o (acilitan los reportes con distinto nivel de detalle.

    o !uede ser vista como un /r+ol donde los miem+ros de menor nivel son las hojas.o De+en ser 5e-i+les

    1 tri+utos

    Q

  • 8/18/2019 Resumen DataWarehouse

    8/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1o #ampos que ampl9an la información de cada elemento de la dimensión.o (acilitan las consultas a los usuarios =nales.o tri+utos varia+les son aquellos que pueden cam+iar en el tiempo. Ej. de %H.

    1 Dan sentido a las medidas de la (act 'a+le.1 'a+las

    o $on m/s cortas y anchas que las (act 'a+le. 'ienden a ser m/s anchas que largas.o  'ienen claves que no provienen de la fuente de datos.o Isan claves num2ricas simples.o Est/n des normalizadas.

    1 gregacióno !roceso por el cual la información de +ajo nivel se resume anticipadamente y se

    coloca en ta+las especiales que almacenan la información resumida. 8a t2cnica deagregación es parte integral de la solución al pro+lema de performance.

    1 Dimensión Degeneradao Es tener una dimensión sin ta+la. Ej. *uardo el nro. de factura.

    1 Mini Dimensióno +rir una dimensión en @ o m/s peque4as.

    1 *ranularidad

    o Es el nivel elemental Serarqu9a M9nima0o Ina vez de=nida, no se puede minimizar.o Es el grado m9nimo que se representa en la (act 'a+le.

    FACT TALE (T," -e .e/.$*):

    1 #entro del modelo dimensional1 'iene punteros a las claves de menor nivel de cada dimensión1 #ontiene las medidas.1 $i necesito distintas granularidades, entonces necesito distintas (act 'a+le.1 "o tiene referencias "I8$ a ninguna dimensión.1 8os atri+utos pertenecen a las dimensiones y no a los a las (act 'a+les.

    1 $on m/s largas que anchas.1 Ina (act 'a+le sin medidas puede ser posi+le, pero es un caso at9pico. $e utiliza pararegistrar un EHE"'&, que el hecho se produjo. Evento de vinculación entre dimensionesEnfermedades 6 #entro Medico0.

    1 $e usa m/s de una (act 'a+le cuando las dimensiones no son comunes o cuandoencuentro medidas que son cali=cadas por dimensiones distintas.

    MODELO ESTRELLA

    Dise4o especial para los procesos anal9ticos. #ada ta+la de dimensiones se vincula con la (act

     'a+le, siempre por el mismo campo. Es simple e intuitivo, como as9 tam+i2n demantenimiento 5e-i+le.

    CONSIDERACIONES

    #uando se construye un modelo multidimensional de de+e tener en cuenta

    • 8as dimensiones y sus atri+utos.• 8as jerarqu9as de las dimensiones• 8a granularidad de las dimensiones.

    $i +ien los datos son generalmente num2ricos, podr9an ser te-tuales, gr/=cos, sonidos, etc.

    8os atri+utos son generalmente alfa+2ticos.(ormulas rangos0

    T

  • 8/18/2019 Resumen DataWarehouse

    9/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1• 8as elementales son las sumas.• $e de=nen so+re los ejes no so+re las celdas0

    (ormulas condicionadas

    • Depende lo que pidan, puedo sumar o sacar promedio $i piden media de ventao total de venta0.

    ARQUITECTURA

    #ualquier arquitectura de+e

    • $er soporte de la toma de decisiones.• !ermitir una vista multidimensional de datos.• Drill acer un agujero, so+re las dimensiones.• $lice Re+anar.• Dice acer un cu+o m/s peque4o

    Es poco e=ciente usar un formato que re5eje =elmente la vista del usuario.

    #arga del DW

  • 8/18/2019 Resumen DataWarehouse

    10/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1

    • M&8!a. Multidimensional &8!. Isa un esquema multidimensional.+. 8os datos se almacenan de forma similar a como se usaran.c. Itilizan matrices multidimensionales.d. 8os cu+os incluyen datos recalculados.e. 8imitación en el tama4o de los cu+os.f. 8a carga y pre calculación requiere un tiempo signi=cativo.

     

    • D&8!a. Des;top &8!. erramientas y cu+o residen en la !#.+. 'ra+aja con los datos de forma oUine.c. erramientas son f/ciles de usar, pero su capacidad anal9tica es limitada.

    >A

  • 8/18/2019 Resumen DataWarehouse

    11/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1

    • %&8! L &8!a. $olución integrada L i+rida+. !uede com+inar +ases relacionales y multidimensionales.

    Elección de la arquitectura. #ualquier decisión depender/ de

    •  'ama4o de la +ase.• #antidad de dimensiones• Escala+ilidad demandada•

     'iempo de respuesta• *rado de dispersión• (recuencia de actualización• %nfraestructura.

    ODS (OPERATIONAL DATA STORE)

    #aracter9sticas

    • Datos %ntegrados. &rientados a un tema ctualizados casi en tiempo real. Hol/tiles. #orrientes. Detallados.

    • Kene=cios Reportes operacionales m/s r/pidos. ccesi+ilidad a datos cr9ticos. Hisión completa de un tema. #on posi+ilidad de replicar datos en los sistemas operacionales.

    yuda a alimentar el DW.• %ntegración

    Mediante procesos +ach.

    >>

  • 8/18/2019 Resumen DataWarehouse

    12/12

    ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1 Mediante triggers.

     'ratamiento de los datos

    • %ncompletos Decisión #&M!8E'R fectando el resultado

    • #onstante glo+al.• Halor promedios.• M/s pro+a+le

    $in afectar el resultado• 8lenar el valor manualmente.• %gnorar.

    • Datos con ruido Decisión !8"R Encajado $uavizar, segJn valor medio de la caja. #lJster Detectar outliers. Regresión justando valores segJn la función.

    • Datos inconsistentes Decisión DE'E#'R X E8%M%"R• Datos E-cesivos fectan la celeridad de la e-plotación0. Decisión Reducir sin

    afectar la calidad.

    >@