procesos de la minería de datos por ing. sofia j. vallejos.pdf

Upload: ygomez19

Post on 17-Oct-2015

32 views

Category:

Documents


0 download

TRANSCRIPT

  • Universidad Nacional del Nordeste

    Facultad de Ciencias Exactas, Naturales y Agrimensura

    Trabajo de Adscripcin

    Minera de Datos

    Adscripta: Sofia J. Vallejos - L.U.: 37.032Materia: Diseo y Administracin de DatosDirector: Mgter. David Luis la Red Martnez

    Licenciatura en Sistemas de InformacinCorrientes - Argentina

    2006

  • ii

  • ndice General

    1 Inteligencia de Negocios 11.1 Business Intelligence . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Qu es Business Intelligence? . . . . . . . . . . . . . . . . . . . 21.3 Componentes de Business Intelligence . . . . . . . . . . . . . . 3

    2 Introduccin 52.1 Descubrimiento de Conocimiento en Bases de Datos (KDD) . 52.2 Concepto del KDD . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2.2.1 Metas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Relacin con otras disciplinas . . . . . . . . . . . . . . . . . . . 82.4 El proceso de KDD . . . . . . . . . . . . . . . . . . . . . . . . . 8

    3 Mineria de Datos - Data Mining 113.1 Conceptos e Historia . . . . . . . . . . . . . . . . . . . . . . . . 11

    3.1.1 Los Fundamentos del Data Mining . . . . . . . . . . . . 123.2 Principales caractersticas y objetivos de la Minera de Datos . 133.3 El Alcance de Data Mining . . . . . . . . . . . . . . . . . . . . 153.4 Una arquitectura para Data Mining . . . . . . . . . . . . . . . 16

    4 Fases de un Proyecto de MD y Aplicaciones de Uso 174.1 Fases de un Proyecto de Minera de Datos . . . . . . . . . . . . 17

    4.1.1 Filtrado de datos . . . . . . . . . . . . . . . . . . . . . . 174.1.2 Seleccin de variables . . . . . . . . . . . . . . . . . . . 184.1.3 Algoritmos de Extraccin de Conocimiento . . . . . . . 184.1.4 Interpretacin y evaluacin . . . . . . . . . . . . . . . . 19

    4.2 Aplicaciones de Uso . . . . . . . . . . . . . . . . . . . . . . . . 194.2.1 En el Gobierno: . . . . . . . . . . . . . . . . . . . . . . . 194.2.2 En la Empresa . . . . . . . . . . . . . . . . . . . . . . . 204.2.3 En la Universidad . . . . . . . . . . . . . . . . . . . . . 21

    iii

  • iv NDICE GENERAL

    4.2.4 En Investigaciones Espaciales . . . . . . . . . . . . . . . 224.2.5 En los Clubes Deportivos . . . . . . . . . . . . . . . . . 23

    5 Extensiones del Data Mining 255.1 Web mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255.2 Text mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    6 Conclusin 29

    Bibliografa 31

  • ndice de Figuras

    1.1 Ilustracin del B.I. . . . . . . . . . . . . . . . . . . . . . . . . . 3

    2.1 Jerarqua del Conocimiento. . . . . . . . . . . . . . . . . . . . . 72.2 Proceso de KDD . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    4.1 Fases del Proyecto de M.D. . . . . . . . . . . . . . . . . . . . . 18

    v

  • Captulo 1

    Inteligencia de Negocios

    1.1 Business Intelligence

    Algo peor que no tener informacin disponible es tener mucha informacin yno saber qu hacer con ella. La Inteligencia de Negocios o Business Intelligen-ce (BI) es la solucin a ese problema, pues por medio de dicha informacinpuede generar escenarios, pronsticos y reportes que apoyen a la toma de de-cisiones, lo que se traduce en una ventaja competitiva. La clave para BI es lainformacin y uno de sus mayores beneficios es la posibilidad de utilizarla enla toma de decisiones. En la actualidad hay una gran variedad de software deBI con aplicaciones similares que pueden ser utilizados en las diferentes reasde la empresa, tales como, ventas, marketing, finanzas, etc. Son muchas lasempresas que se han beneficiado por la implementacin de una sistema de BI,adems se pronostica que con el tiempo se convertir en una necesidad de todaempresa.

    En este nuevo mundo, la informacin reina afirma Geoffrey A. Moore,Director de Chasm Group. Vivimos en una poca en que la informacin es laclave para obtener una ventaja competitiva en el mundo de los negocios. Paramantenerse competitiva una empresa, los gerentes y tomadores de decisionesrequieren de un acceso rpido y fcil a informacin til y valiosa de la empresa.Una forma de solucionar este problema es por medio del uso de BusinessIntelligence o Inteligencia de Negocios.

    1

  • 2 CAPTULO 1. INTELIGENCIA DE NEGOCIOS

    1.2 Qu es Business Intelligence?

    La Inteligencia de Negocios o Business Intelligence (BI) se puede definir comoel proceso de analizar los bienes o datos acumulados en la empresa y extraeruna cierta inteligencia o conocimiento de ellos. Dentro de la categora debienes se incluyen las bases de datos de clientes, informacin de la cadena desuministro, ventas personales y cualquier actividad de marketing o fuente deinformacin relevante para la empresa.

    BI apoya a los tomadores de decisiones con la informacin correcta, en elmomento y lugar correcto, lo que les permite tomar mejores decisiones de ne-gocios. La informacin adecuada en el lugar y momento adecuado incrementaefectividad de cualquier empresa.

    La tecnologa de BI no es nueva, ha estado presente de varias formas por

    lo menos en los ltimos 20 aos, comenzando por generadores de reportes

    y sistemas de informacin ejecutiva en los 80s Afirma Candice Goodwin .Entindase como sinnimos de tecnologa de BI los trminos aplicaciones, so-luciones o software de inteligencia de negocios.

    Para comprender mejor el concepto se sita el siguiente ejemplo. Una fran-quicia de hoteles a nivel nacional que utiliza aplicaciones de BI para llevar unregistro estadstico del porcentaje promedio de ocupacin del hotel, as comolos das promedio de estancia de cada husped, considerando las diferenciasentre temporadas. Con esta informacin ellos pueden:

    Calcular la rentabilidad de cada hotel en cada temporada del ao.

    Determinar quin es su segmento de mercado.

    Calcular la participacin de mercado de la franquicia y de cada hotel.

    Identificar oportunidades y amenazas.

    Estas son slo algunas de las formas en que una empresa u organizacinse puede beneficiar por la implementacin de software de BI, hay una granvariedad de aplicaciones o software que brindan a la empresa la habilidad deanalizar de una forma rpida por qu pasan las cosas y enfocarse a patronesy amenazas. En la figura 1.1 de la pgina 3 se ilustra lo antes mencionado.

  • 1.3. COMPONENTES DE BUSINESS INTELLIGENCE 3

    Figura 1.1: Ilustracin del B.I.

    1.3 Componentes de Business Intelligence

    Todas las soluciones de BI tienen funciones parecidas, pero deben de reunir almenos los siguientes componentes:

    Multidimensionalidad: la informacin multidimensional se puede encon-trar en hojas de clculo, bases de datos, etc. Una herramienta de BIdebe de ser capaz de reunir informacin dispersa en toda la empresa eincluso en diferentes fuentes para as proporcionar a los departamentosla accesibilidad, poder y flexibilidad que necesitan para analizar la in-formacin. Por ejemplo, un pronstico de ventas de un nuevo productoen varias regiones no est completo si no se toma en cuenta tambin elcomportamiento histrico de las ventas de cada regin y la forma en quela introduccin de nuevos productos se ha desarrollado en cada reginen cuestin.

    Data Mining: Las empresas suelen generar grandes cantidades de infor-macin sobre sus procesos productivos, desempeo operacional, merca-dos y clientes. Pero el xito de los negocios depende por lo general de lahabilidad para ver nuevas tendencias o cambios en las tendencias. Lasaplicaciones de data mining pueden identificar tendencias y comporta-mientos, no slo para extraer informacin, sino tambin para descubrirlas relaciones en bases de datos que pueden identificar comportamientos

  • 4 CAPTULO 1. INTELIGENCIA DE NEGOCIOS

    que no muy evidentes.

    Agentes: Los agentes son programas que piensan. Ellos pueden realizartareas a un nivel muy bsico sin necesidad de intervencin humana.Por ejemplo, un agente pueden realizar tares un poco complejas, comoelaborar documentos, establecer diagramas de flujo, etc.

    Data Warehouse: Es la respuesta de la tecnologa de informacin a ladescentralizacin en la toma de decisiones. Coloca informacin de todaslas reas funcionales de la organizacin en manos de quien toma lasdecisiones. Tambin proporciona herramientas para bsqueda y anlisis.

  • Captulo 2

    Introduccin

    2.1 Descubrimiento de Conocimiento en Bases deDatos (KDD)

    En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades degenerar y colectar datos, debido bsicamente al gran poder de procesamientode las mquinas como a su bajo costo de almacenamiento.

    Sin embargo, dentro de estas enormes masas de datos existe una grancantidad de informacin oculta, de gran importancia estratgica, a la que nose puede acceder por las tcnicas clsicas de recuperacin de la informacin.El descubrimiento de esta informacin oculta es posible gracias a la Minera deDatos (Data Mining), que entre otras sofisticadas tcnicas aplica la inteligenciaartificial para encontrar patrones y relaciones dentro de los datos permitiendola creacin de modelos, es decir, representaciones abstractas de la realidad,pero es el descubrimiento del conocimiento (KDD, por sus siglas en ingls) quese encarga de la preparacin de los datos y la interpretacin de los resultadosobtenidos, los cuales dan un significado a estos patrones encontrados.

    As el valor real de los datos reside en la informacin que se puede ex-traer de ellos, informacin que ayude a tomar decisiones o mejorar nuestracomprensin de los fenmenos que nos rodean. Hoy, ms que nunca, los mto-dos analticos avanzados son el arma secreta de muchos negocios exitosos.Empleando mtodos analticos avanzados para la explotacin de datos, los ne-gocios incrementan sus ganancias, maximizan la eficiencia operativa, reducen

    5

  • 6 CAPTULO 2. INTRODUCCIN

    costos y mejoran la satisfaccin del cliente

    2.2 Concepto del KDD

    De forma general, los datos son la materia prima bruta. En el momento que elusuario les atribuye algn significado especial pasan a convertirse en informa-cin. Cuando los especialistas elaboran o encuentran un modelo, haciendo quela interpretacin de la informacin y ese modelo representen un valor agrega-do, entonces nos referimos al conocimiento. En la figura 2.1 de la pgina 7 seilustra la jerarqua que existe en una base de datos entre datos, informacin yconocimiento. Se observa igualmente el volumen que presenta en cada nivel yel valor que los responsables de las decisiones le dan en esa jerarqua. El reainterna dentro del tringulo representa los objetivos que se han propuesto. Laseparacin del tringulo representa la estrecha unin entre dato e informacin,no as entre la informacin y el conocimiento.

    La capacidad de generar y almacenar informacin creci considerablementeen los ltimos tiempos, se ha estimado que la cantidad de datos en el mundoalmacenados en bases de datos se duplica cada 20 meses. Es as que hoy lasorganizaciones tienen gran cantidad de datos almacenados y organizados, peroa los cuales no les pueden analizar eficientemente en su totalidad.

    Con las sentencias SQL se puede realizar un primer anlisis, aproximada-mente el 80% de la informacin se obtiene con estas tcnicas. El 20% restante,que la mayora de las veces, contiene la informacin ms importante, requierela utilizacin de tcnicas ms avanzadas.

    El Descubrimiento de Conocimiento en Bases de Datos

    (KDD) apunta a procesar automticamente grandes cantidades de datospara encontrar conocimiento til en ellos, de esta manera permitir al usuarioel uso de esta informacin valiosa para su conveniencia.

    El KDD es el Proceso no trivial de identificar patrones vlidos, novedosos,potencialmente

    tiles y, en ltima instancia, comprensibles a partir de los datos .

    (Fallad et al., 1996)

    El objetivo fundamental del KDD es encontrar conocimiento til, vlido,

  • 2.2. CONCEPTO DEL KDD 7

    Figura 2.1: Jerarqua del Conocimiento.

    relevante y nuevo sobre un fenmeno o actividad mediante algoritmos eficien-tes, dadas las crecientes rdenes de magnitud en los datos. Al mismo tiempohay un profundo inters por presentar los resultados de manera visual o almenos de manera que su interpretacin sea muy clara. Otro aspecto es quela interaccin humano-mquina deber ser flexible, dinmica y colaboradora.El resultado de la exploracin deber ser interesante y su calidad no debe serafectada por mayores volmenes de datos o por ruido en los datos. En estesentido, los algoritmos de descubrimiento de informacin deben ser altamenterobustos.

    2.2.1 Metas

    Las metas del KDD son:

    Procesar automticamente grandes cantidades de datos crudos.

    Identificar los patrones ms significativos y relevantes.

    Presentarlos como conocimiento apropiado para satisfacer las metas delusuario.

  • 8 CAPTULO 2. INTRODUCCIN

    2.3 Relacin con otras disciplinas

    KDD nace como interfaz y se nutre de diferentes disciplinas:

    Sistemas de informacin / bases de datos: tecnologas de bases de datos ybodegas de datos, maneras eficientes de almacenar, accesar y manipulardatos.

    Estadstica, aprendizaje automtico / IA (redes neuronales, lgica di-fusa, algoritmos genticos, razonamiento probabilstico): desarrollo detcnicas para extraer conocimiento a partir de datos.

    Reconocimiento de patrones: desarrollo de herramientas de clasificacin.

    Visualizacin de datos: interfaz entre humanos y datos, y entre humanosy patrones.

    Computacin paralela / distribuida: cmputo de alto desempeo, mejorade desempeo de algoritmos debido asu complejidad y a la cantidad dedatos.

    Interfaces de lenguaje natural a bases de datos.

    2.4 El proceso de KDD

    El proceso de KDD consiste en usar mtodos de minera de datos(algoritmos)para extraer (identificar) lo que se considera como conocimiento de acuerdo ala especificacin de ciertos parmetros usando una base de datos junto con pre-procesamientos y post-procesamientos.En la figura2.2 de la pagina 9se ilustrael proceso de KDD.

    Se estima que la extraccin de patrones (minera) de los datos ocupa soloel 15% - 20% del esfuerzo total del proceso de KDD.

    El proceso de descubrimiento de conocimiento en bases de datos involucravarios pasos:

    Determinar las fuentes de informacin: que pueden ser tiles y dndeconseguirlas.

  • 2.4. EL PROCESO DE KDD 9

    Figura 2.2: Proceso de KDD

    Disear el esquema de un almacn de datos (Data Warehouse): queconsiga unificar de manera operativa toda la informacin recogida.

    Implantacin del almacn de datos: que permita la navegacin y visua-lizacin previa de sus datos, para discernir qu aspectos puede interesarque sean estudiados. Esta es la etapa que puede llegar a consumir elmayor tiempo.

    Seleccin, limpieza y transformacin de los datos que se van a analizar: laseleccin incluye tanto una criba o fusin horizontal (filas) como vertical(atributos).La limpieza y prepocesamiento de datos se logra diseandouna estrategia adecuada para manejar ruido, valores incompletos, se-cuencias de tiempo, casos extremos (si es necesario), etc.

    Seleccionar y aplicar el mtodo de minera de datos apropiado: estoincluye la seleccin de la tarea de descubrimiento a realizar, por ejemplo,clasificacin, agrupamiento o clustering, regresin, etc. La seleccin de lo de los algoritmos a utilizar. La transformacin de los datos al formatorequerido por el algoritmo especfico de minera de datos. Y llevar acabo el proceso de minera de datos, se buscan patrones que puedan

  • 10 CAPTULO 2. INTRODUCCIN

    expresarse como un modelo o simplemente que expresen dependenciasde los datos, el modelo encontrado depende de su funcin (clasificacin)y de su forma de representarlo (rboles de decisin, reglas, etc.), se tieneque especificar un criterio de preferencia para seleccionar un modelodentro de un conjunto posible de modelos, se tiene que especificar laestrategia de bsqueda a utilizar (normalmente est predeterminada enel algoritmo de minera)

    Evaluacin, interpretacin, transformacin y representacin de los pa-trones extrados:

    Interpretar los resultados y posiblemente regresar a los pasos anteriores.Esto puede involucrar repetir el proceso, quizs con otros datos, otros algo-ritmos, otras metas y otras estrategias. Este es un paso crucial en donde serequiere tener conocimiento del dominio. La interpretacin puede beneficiarsede procesos de visualizacin, y sirve tambin para borrar patrones redundantesoirrelevantes.

    Difusin y uso del nuevo conocimiento.

    Incorporar el conocimiento descubierto al sistema (normalmente para me-jorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimientoexistente.

    El conocimiento se obtiene para realizar acciones, ya sea incorporndolodentro de un sistema de desempeo o simplemente para almacenarlo y repor-tarlo a las personas interesadas.

    En este sentido, KDD implica un proceso interactivo e iterativo involu-crando la aplicacin de varios algoritmos de minera de datos.

  • Captulo 3

    Mineria de Datos - DataMining

    3.1 Conceptos e Historia

    Aunque desde un punto de vista acadmico el trmino data mining es unaetapa dentro de un proceso mayor llamado extraccin de conocimiento enbases de datos, (mencionado en el capitulo anterior) en el entorno comercial,as como en este trabajo, ambos trminos se usan de manera indistinta. Loque en verdad hace el data mining es reunir las ventajas de varias reas comola Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases deDatos y el Procesamiento Masivo, principalmente usando como materia primalas bases de datos. Una definicin tradicional es la siguiente: Un proceso notrivial de identificacin vlida, novedosa, potencialmente til y entendible de

    patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros,1996). Desde el punto de vista empresarial , lo definimos como: La integracinde un conjunto de reas que tienen como propsito la identificacin de un

    conocimiento obtenido a partir de las bases de datos que aporten un sesgo

    hacia la toma de decisin (Molina y otros, 2001).

    La idea de data mining no es nueva. Ya desde los aos sesenta los estads-ticos manejaban trminos como data fishing, data mining o data archaeologycon la idea de encontrar correlaciones sin una hiptesis previa en bases dedatos con ruido. A principios de los aos ochenta, Rakesh Agrawal, Gio Wie-derhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a

    11

  • 12 CAPTULO 3. MINERIA DE DATOS - DATA MINING

    consolidar los trminos de data mining y KDD.[3] A finales de los aos ochentaslo existan un par de empresas dedicadas a esta tecnologa; en 2002 existenms de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones.Las listas de discusin sobre este tema las forman investigadores de ms deochenta pases. Esta tecnologa ha sido un buen punto de encuentro entrepersonas pertenecientes al mbito acadmico y al de los negocios.

    El data mining es una tecnologa compuesta por etapas que integra variasreas y que no se debe confundir con un gran software. Durante el desarrollode un proyecto de este tipo se usan diferentes aplicaciones software en cadaetapa que pueden ser estadsticas, de visualizacin de datos o de inteligenciaartificial, principalmente. Actualmente existen aplicaciones o herramientascomerciales de data mining muy poderosas que contienen un sinfn de utilerasque facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acabancomplementndose con otra herramienta.

    La data mining es la etapa de descubrimiento en el proceso de KDD: Pasoconsistente en el uso de algoritmos concretos que generan una enumeracin

    de patrones a partir de los datos preprocesados (Fayyad et al., 1996)Aunquese suelen usar indistintamente los trminos KDD y Minera de Datos.

    3.1.1 Los Fundamentos del Data Mining

    Las tcnicas de Data Mining son el resultado de un largo proceso de investi-gacin y desarrollo de productos. Esta evolucin comenz cuando los datosde negocios fueron almacenados por primera vez en computadoras, y continucon mejoras en el acceso a los datos, y ms recientemente con tecnologas ge-neradas para permitir a los usuarios navegar a travs de los datos en tiemporeal. Data Mining toma este proceso de evolucin ms all del acceso y nave-gacin retrospectiva de los datos, hacia la entrega de informacin prospectivay proactiva. Data Mining est listo para su aplicacin en la comunidad de ne-gocios porque est soportado por tres tecnologas que ya estn suficientementemaduras:

    Recoleccin masiva de datos.

    Potentes computadoras con multiprocesadores.

    Algoritmos de Data Mining.

  • 3.2. PRINCIPALES CARACTERSTICAS YOBJETIVOSDE LAMINERADEDATOS13

    Las bases de datos comerciales estn creciendo a un ritmo sin precedentes.Un reciente estudio del META GROUP sobre los proyectos de Data Warehou-se encontr que el 19% de los que contestaron estn por encima del nivel de los50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestrede 1997. En algunas industrias, tales como ventas al por menor (retail), estosnmeros pueden ser an mayores. MCI Telecommunications Corp. cuenta conuna base de datos de 3 terabytes + 1 terabyte de ndices y overhead corriendoen MVS sobre IBM SP2. La necesidad paralela de motores computacionalesmejorados puede ahora alcanzarse de forma ms costo - efectiva con tecno-loga de computadoras con multiprocesamiento paralelo. Los algoritmos deData Mining utilizan tcnicas que han existido por lo menos desde hace 10aos, pero que slo han sido implementadas recientemente como herramientasmaduras, confiables, entendibles que consistentemente son ms performantesque mtodos estadsticos clsicos.

    En la evolucin desde los datos de negocios a informacin de negocios, ca-da nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinmicoses crtico para las aplicaciones de navegacin de datos (drill through applica-tions), y la habilidad para almacenar grandes bases de datos es crtica paraData Mining.

    Los componentes esenciales de la tecnologa de Data Mining han estadobajo desarrollo por dcadas, en reas de investigacin como estadsticas, inteli-gencia artificial y aprendizaje de mquinas. Hoy, la madurez de estas tcnicas,junto con los motores de bases de datos relacionales de alta performance, hicie-ron que estas tecnologas fueran prcticas para los entornos de data warehouseactuales.

    3.2 Principales caractersticas y objetivos de la Mi-nera de Datos

    Explorar los datos se encuentran en las profundidades de las bases dedatos, como los almacenes de datos, que algunas veces contienen infor-macin almacenada durante varios aos.

    En algunos casos, los datos se consolidan en un almacn de datos y enmercados de datos; en otros, se mantienen en servidores de Internet eIntranet.

  • 14 CAPTULO 3. MINERIA DE DATOS - DATA MINING

    El entorno de la minera de datos suele tener una arquitectura cliente-servidor.

    Las herramientas de la minera de datos ayudan a extraer el mineral dela informacin enterrado en archivos corporativos o en registros pblicos,archivados

    El minero es, muchas veces un usuario final con poca o ninguna habilidadde programacin, facultado por barrenadoras de datos y otras podero-sas herramientas indagatorias para efectuar preguntas adhoc y obtenerrpidamente respuestas.

    Hurgar y sacudir a menudo implica el descubrimiento de resultados va-liosos e inesperados.

    Las herramientas de la minera de datos se combinan fcilmente y puedenanalizarse y procesarse rpidamente.

    Debido a la gran cantidad de datos, algunas veces resulta necesario usarprocesamiento en paralelo para la minera de datos.

    La minera de datos produce cinco tipos de informacin:

    Asociaciones.

    Secuencias.

    Clasificaciones.

    Agrupamientos.

    Pronsticos.

    Los mineros de datos usan varias herramientas y tcnicas.

    La minera de datos es un proceso que invierte la dinmica del mtodocientfico en el siguiente sentido:

    En el mtodo cientfico, primero se formula la hiptesis y luego se diseael experimento para coleccionar los datos que confirmen o refuten la hiptesis.Si esto se hace con la formalidad adecuada (cuidando cules son las variablescontroladas y cules experimentales), se obtiene un nuevo conocimiento.

    En la minera de datos, se coleccionan los datos y se espera que de ellosemerjan hiptesis. Se busca que los datos describan o indiquen por qu son

  • 3.3. EL ALCANCE DE DATA MINING 15

    como son. Luego entonces, se valida esa hiptesis inspirada por los datos enlos datos mismos, ser numricamente significativa, pero experimentalmenteinvlida. De ah que la minera de datos debe presentar un enfoque explora-torio, y no confirmador. Usar la minera de datos para confirmar las hiptesisformuladas puede ser peligroso, pues se est haciendo una inferencia pocovlida.

    La minera de datos es una tecnologa compuesta por etapas que integravarias reas y que no se debe confundir con un gran software. Durante eldesarrollo de un proyecto de este tipo se usan diferentes aplicaciones soft-ware en cada etapa que pueden ser estadsticas, de visualizacin de datos ode inteligencia artificial, principalmente. Actualmente existen aplicaciones oherramientas comerciales de minera de datos muy poderosas que contienenun sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo,casi siempre acaban complementndose con otra herramienta.

    3.3 El Alcance de Data Mining

    El nombre de Data Mining deriva de las similitudes entre buscar valiosa infor-macin de negocios en grandes bases de datos - por ej.: encontrar informacinde la venta de un producto entre grandes montos de Gigabytes almacenados- y minar una montaa para encontrar una veta de metales valiosos. Ambosprocesos requieren examinar una inmensa cantidad de material, o investigar in-teligentemente hasta encontrar exactamente donde residen los valores. Dadasbases de datos de suficiente tamao y calidad, la tecnologa de Data Miningpuede generar nuevas oportunidades de negocios al proveer estas capacidades:

    Prediccin automatizada de tendencias y comportamientos. Data Mi-ning automatiza el proceso de encontrar informacin predecible en gran-des bases de datos. Preguntas que tradicionalmente requeran un intensoanlisis manual, ahora pueden ser contestadas directa y rpidamente des-de los datos. Un tpico ejemplo de problema predecible es el marketingapuntado a objetivos (targeted marketing). Data Mining usa datos enmailing promocionales anteriores para identificar posibles objetivos paramaximizar los resultados de la inversin en futuros mailing. Otros pro-blemas predecibles incluyen pronsticos de problemas financieros futurosy otras formas de incumplimiento, e identificar segmentos de poblacinque probablemente respondan similarmente a eventos dados.

  • 16 CAPTULO 3. MINERIA DE DATOS - DATA MINING

    Descubrimiento automatizado de modelos previamente desconocidos. Lasherramientas de Data Mining barren las bases de datos e identifican mo-delos previamente escondidos en un slo paso. Otros problemas de des-cubrimiento de modelos incluye detectar transacciones fraudulentas detarjetas de crditos e identificar datos anormales que pueden representarerrores de tipeado en la carga de datos.

    Las tcnicas de Data Mining pueden redituar los beneficios de automa-tizacin en las plataformas de hardware y software existentes y puede serimplementadas en sistemas nuevos a medida que las plataformas existentes seactualicen y nuevos productos sean desarrollados. Cuando las herramientasde Data Mining son implementadas en sistemas de procesamiento paralelo dealta performance, pueden analizar bases de datos masivas en minutos. Pro-cesamiento ms rpido significa que los usuarios pueden automticamente ex-perimentar con ms modelos para entender datos complejos. Alta velocidadhace que sea prctico para los usuarios analizar inmensas cantidades de datos.Grandes bases de datos, a su vez, producen mejores predicciones.

    3.4 Una arquitectura para Data Mining

    Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente inte-gradas con el data warehouse as como con herramientas flexibles e interactivaspara el anlisis de negocios. Varias herramientas de Data Mining actualmenteoperan fuera del warehouse, requiriendo pasos extra para extraer, importar yanalizar los datos. Adems, cuando nuevos conceptos requieren implementa-cin operacional, la integracin con el warehouse simplifica la aplicacin de losresultados desde Data Mining. El Data warehouse analtico resultante puedeser aplicado para mejorar procesos de negocios en toda la organizacin, enreas tales como manejo de campaas promocionales, deteccin de fraudes,lanzamiento de nuevos productos, etc.

    El punto de inicio ideal es un data warehouse que contenga una combi-nacin de datos de seguimiento interno de todos los clientes junto con datosexternos de mercado acerca de la actividad de los competidores. Informacinhistrica sobre potenciales clientes tambin provee una excelente base paraprospecting. Este warehouse puede ser implementado en una variedad de sis-temas de bases relacionales y debe ser optimizado para un acceso a los datosflexible y rpido.

  • Captulo 4

    Fases de un Proyecto de MDy Aplicaciones de Uso

    4.1 Fases de un Proyecto de Minera de Datos

    Los pasos a seguir para la realizacin de un proyecto de minera de datos sonsiempre los mismos, independientemente de la tcnica especfica de extraccinde conocimiento usada. En la sigiente figura 4.1 de la pagina 18 se ilustra lasFases del Proyecto de MD.

    El proceso de minera de datos pasa por las siguientes fases:

    Filtrado de datos.

    Seleccin de Variables.

    Extraccin de Conocimiento.

    Interpretacin y Evaluacin.

    4.1.1 Filtrado de datos

    El formato de los datos contenidos en la fuente de datos (base de datos, DataWarehouse...) nunca es el idneo, y la mayora de las veces no es posible nisiquiera utilizar ningn algoritmo de minera sobre los datos en bruto.

    17

  • 18CAPTULO 4. FASES DEUN PROYECTODEMDYAPLICACIONES DEUSO

    Figura 4.1: Fases del Proyecto de M.D.

    Mediante el preprocesado, se filtran los datos (de forma que se eliminanvalores incorrectos, no vlidos, desconocidos... segn las necesidades y el al-goritmo a usar), se obtienen muestras de los mismos (en busca de una mayorvelocidad de respuesta del proceso), o se reducen el nmero de valores posibles(mediante redondeo, clustering,...).

    4.1.2 Seleccin de variables

    An despus de haber sido preprocesados, en la mayora de los casos se tieneuna cantidad ingente de datos. La seleccin de caractersticas reduce el ta-mao de los datos eligiendo las variables ms influyentes en el problema, sinapenas sacrificar la calidad del modelo de conocimiento obtenido del procesode minera.

    Los mtodos para la seleccin de caractersticas son bsicamente dos:

    Aquellos basados en la eleccin de los mejores atributos del problema,

    Y aquellos que buscan variables independientes mediante tests de sensi-bilidad, algoritmos de distancia o heursticos.

    4.1.3 Algoritmos de Extraccin de Conocimiento

    Mediante una tcnica de minera de datos, se obtiene un modelo de conoci-miento, que representa patrones de comportamiento observados en los valores

  • 4.2. APLICACIONES DE USO 19

    de las variables del problema o relaciones de asociacin entre dichas variables.Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos,aunque generalmente cada tcnica obliga a un preprocesado diferente de losdatos.

    4.1.4 Interpretacin y evaluacin

    Una vez obtenido el modelo, se debe proceder a su validacin, comprobandoque las conclusiones que arroja son vlidas y suficientemente satisfactorias.En el caso de haber obtenido varios modelos mediante el uso de distintastcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejoral problema. Si ninguno de los modelos alcanza los resultados esperados, debealterarse alguno de los pasos anteriores para generar nuevos modelos.

    4.2 Aplicaciones de Uso

    Cada ao, en los diferentes congresos, simposios y talleres que se realizan enel mundo se renen investigadores con aplicaciones muy diversas. Sobre todoen los Estados Unidos, el data mining se ha ido incorporando a la vida deempresas, gobiernos, universidades, hospitales y diversas organizaciones queestn interesadas en explorar sus bases de datos.

    4.2.1 En el Gobierno:

    El FBI analizar las bases de datos comerciales para detectarterroristas.

    A principios del mes de julio de 2002, el director del Federal Bureau ofInvestigation (FBI), John Aschcroft, anunci que el Departamento de Justiciacomenzar a introducirse en la vasta cantidad de datos comerciales referen-tes a los hbitos y preferencias de compra de los consumidores, con el fin dedescubrir potenciales terroristas antes de que ejecuten una accin. Algunosexpertos aseguran que, con esta informacin, el FBI unir todas las bases dedatos probablemente mediante el nmero de la Seguridad Social y permitirsaber si una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos,

  • 20CAPTULO 4. FASES DEUN PROYECTODEMDYAPLICACIONES DEUSO

    su salario, las revistas a las que est suscrito, su altura y peso, sus contribu-ciones a la Iglesia, grupos polticos u organizaciones no gubernamentales, susenfermedades crnicas (como diabetes o asma), los libros que lee, los produc-tos de supermercado que compra, si tom clases de vuelo o si tiene cuentasde banco abiertas, entre otros. La inversin inicial ronda los setenta millonesde dlares estadounidenses para consolidar los almacenes de datos, desarrollarredes de seguridad para compartir informacin e implementar nuevo softwareanaltico y de visualizacin.

    4.2.2 En la Empresa

    Deteccin de fraudes en las tarjetas de crdito.

    En 2001, las instituciones financieras a escala mundial perdieron msde 2.000 millones de dlares estadounidenses en fraudes con tarjetas decrdito y dbito. El Falcon Fraud Manager es un sistema inteligente queexamina transacciones, propietarios de tarjetas y datos financieros paradetectar y mitigar fraudes. En un principio estaba pensado, en institu-ciones financieras de Norteamrica, para detectar fraudes en tarjetas decrdito. Sin embargo, actualmente se le han incorporado funcionalida-des de anlisis en las tarjetas comerciales, de combustibles y de dbito.El sistema Falcon ha permitido ahorrar ms de seiscientos millones dedlares estadounidenses cada ao y protege aproximadamente ms decuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo-aproximadamente el sesenta y cinco por ciento de todas las transaccio-nes con tarjeta de crdito.

    Descubriendo el porqu de la desercin de clientes de una com-paa operadora de telefona mvil.

    Este estudio fue desarrollado en una operadora espaola que bsicamen-te situ sus objetivos en dos puntos: el anlisis del perfil de los clientesque se dan de baja y la prediccin del comportamiento de sus nuevosclientes. Se analizaron los diferentes histricos de clientes que habanabandonado la operadora (12,6%) y de clientes que continuaban con suservicio (87,4%). Tambin se analizaron las variables personales de cadacliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma seestudiaron, para cada cliente, la morosidad, la frecuencia y el horario deuso del servicio, los descuentos y el porcentaje de llamadas locales, inter-provinciales, internacionales y gratuitas. Al contrario de lo que se podrapensar, los clientes que abandonaban la operadora generaban ganancias

  • 4.2. APLICACIONES DE USO 21

    para la empresa; sin embargo, una de las conclusiones ms importantesradic en el hecho de que los clientes que se daban de baja reciban pocaspromociones y registraban un mayor nmero de incidencias respecto ala media. De esta forma se recomend a la operadora hacer un estu-dio sobre sus ofertas y analizar profundamente las incidencias recibidaspor esos clientes. Al descubrir el perfil que presentaban, la operadoratuvo que disear un trato ms personalizado para sus clientes actualescon esas caractersticas. Para poder predecir el comportamiento de susnuevos clientes se dise un sistema de prediccin basado en la cantidadde datos que se poda obtener de los nuevos clientes comparados con elcomportamiento de clientes anteriores.

    Hbitos de compra en supermercados.

    Un estudio muy citado detect que los viernes haba una cantidad in-usualmente elevada de clientes que adquiran a la vez paales y cerveza.Se detect que se deba a que dicho da solan acudir al supermercadopadres jvenes cuya perspectiva para el fin de semana consista en que-darse en casa cuidando de su hijo y viendo la televisin con una cervezaen la mano. El supermercado pudo incrementar sus ventas de cervezacolocndolas prximas a los paales para fomentar las ventas compulsi-vas,

    Prediciendo el tamao de las audiencias televisivas.

    La British Broadcasting Corporation (BBC) del Reino Unido empleaun sistema para predecir el tamao de las audiencias televisivas para unprograma propuesto, as como el tiempo ptimo de exhibicin (Brachmany otros, 1996). El sistema utiliza redes neuronales y rboles de decisinaplicados a datos histricos de la cadena para determinar los criteriosque participan segn el programa que hay que presentar. La versinfinal se desempea tan bien como un experto humano con la ventaja deque se adapta ms fcilmente a los cambios porque es constantementereentrenada con datos actuales.

    4.2.3 En la Universidad

    Conociendo si los recin titulados de una universidad llevan acabo actividades profesionales relacionadas con sus estudios.

  • 22CAPTULO 4. FASES DEUN PROYECTODEMDYAPLICACIONES DEUSO

    Se hizo un estudio sobre los recin titulados de la carrera de Ingenieraen Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II, enMjico (Rodas, 2001). Se quera observar si sus recin titulados se insertabanen actividades profesionales relacionadas con sus estudios y, en caso negativo,se buscaba saber el perfil que caracteriz a los exalumnos durante su estan-cia en la universidad. El objetivo era saber si con los planes de estudio dela universidad y el aprovechamiento del alumno se haca una buena insercinlaboral o si existan otras variables que participaban en el proceso. Dentrode la informacin considerada estaba el sexo, la edad, la escuela de proce-dencia, el desempeo acadmico, la zona econmica donde tena su vivienday la actividad profesional, entre otras variables. Mediante la aplicacin deconjuntos aproximados se descubri que existan cuatro variables que deter-minaban la adecuada insercin laboral, que son citadas de acuerdo con suimportancia: zona econmica donde habitaba el estudiante, colegio de dondeprovena, nota al ingresar y promedio final al salir de la carrera. A partir deestos resultados, la universidad tendr que hacer un estudio socioeconmicosobre grupos de alumnos que pertenecan a las clases econmicas bajas paradar posibles soluciones, debido a que tres de las cuatro variables no dependande la universidad.

    4.2.4 En Investigaciones Espaciales

    Proyecto SKYCAT.

    Durante seis aos, el Second Palomar Observatory Sky Survey (POSS-II)coleccion tres terabytes de imgenes que contenan aproximadamentedos millones de objetos en el cielo. Tres mil fotografas fueron digitaliza-das a una resolucin de 16 bits por pxel con 23.040 x 23.040 pxeles porimagen. El objetivo era formar un catlogo de todos esos objetos. Elsistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basaen tcnicas de agrupacin (clustering) y rboles de decisin para poderclasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. conuna alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayuda-do a los astrnomos a descubrir diecisis nuevos qusars con corrimientohacia el rojo que los incluye entre los objetos ms lejanos del universo y,por consiguiente, ms antiguos. Estos qusars son difciles de encontrary permiten saber ms acerca de los orgenes del universo.

  • 4.2. APLICACIONES DE USO 23

    4.2.5 En los Clubes Deportivos

    Los equipos de la NBA utilizan aplicaciones inteligentes paraapoyar a su cuerpo de entrenadores.

    El Advanced Scout es un software que emplea tcnicas de data miningy que han desarrollado investigadores de IBM para detectar patronesestadsticos y eventos raros. Tiene una interfaz grfica muy amigableorientada a un objetivo muy especfico: analizar el juego de los equiposde la National Basketball Association (NBA).

    El software utiliza todos los registros guardados de cada evento en ca-da juego: pases, encestes, rebotes y doble marcaje (double team) a unjugador por el equipo contrario, entre otros. El objetivo es ayudar a losentrenadores a aislar eventos que no detectan cuando observan el juegoen vivo o en pelcula.

    Un resultado interesante fue uno hasta entonces no observado por losentrenadores de los Knicks de Nueva York. El doble marcaje a un juga-dor puede generalmente dar la oportunidad a otro jugador de encestarms fcilmente. Sin embargo, cuando los Bulls de Chicago jugaban con-tra los Knicks, se encontr que el porcentaje de encestes despus deque al centro de los Knicks, Patrick Ewing, le hicieran doble marcajeera extremadamente bajo, indicando que los Knicks no reaccionaban co-rrectamente a los dobles marcajes. Para saber el porqu, el cuerpo deentrenadores estudi cuidadosamente todas las pelculas de juegos con-tra Chicago. Observaron que los jugadores de Chicago rompan su doblemarcaje muy rpido de tal forma que podan tapar al encestador librede los Knicks antes de prepararse para efectuar su tiro. Con este conoci-miento, los entrenadores crearon estrategias alternativas para tratar conel doble marcaje.

    La temporada pasada, IBM ofreci el Advanced Scout a la NBA, que seconvirti as en un patrocinador corporativo. La NBA dio a sus veinti-nueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo estnhaciendo hasta el momento obteniendo descubrimientos interesantes.

  • Captulo 5

    Extensiones del Data Mining

    5.1 Web mining

    Una de las extensiones del data mining consiste en aplicar sus tcnicas a do-cumentos y servicios del Web, lo que se llama web mining (minera de web)(Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan hue-llas digitales (direcciones de IP, navegador, galletas, etc.) que los servidoresautomticamente almacenan en una bitcora de accesos (log). Las herramien-tas de web mining analizan y procesan estos logs para producir informacinsignificativa, por ejemplo, cmo es la navegacin de un cliente antes de ha-cer una compra en lnea. Debido a que los contenidos de Internet consistenen varios tipos de datos, como texto, imagen, vdeo, metadatos o hiperligas,investigaciones recientes usan el trmino multimedia data mining (minera dedatos multimedia) como una instancia del web mining (Zaiane y otros, 1998)para tratar ese tipo de datos. Los accesos totales por dominio, horarios deaccesos ms frecuentes y visitas por da, entre otros datos, son registrados porherramientas estadsticas que complementan todo el proceso de anlisis delweb mining.

    Normalmente, el web mining puede clasificarse en tres dominios de extrac-cin de conocimiento de acuerdo con la naturaleza de los datos:

    Web content mining (minera de contenido web). Es el proceso que con-siste en la extraccin de conocimiento del contenido de documentos o susdescripciones. La localizacin de patrones en el texto de los documen-

    25

  • 26 CAPTULO 5. EXTENSIONES DEL DATA MINING

    tos, el descubrimiento del recurso basado en conceptos de indexacin ola tecnologa basada en agentes tambin pueden formar parte de estacategora.

    Web structure mining (minera de estructura web). Es el proceso deinferir conocimiento de la organizacin del WWW y la estructura de susligas.

    Web usage mining (minera de uso web). Es el proceso de extraccin demodelos interesantes usando los logs de los accesos al web.

    Algunos de los resultados que pueden obtenerse tras la aplicacin de losdiferentes mtodos de web mining son:

    El ochenta y cinco por ciento de los clientes que acceden a la pgina ho-me de productos y a la de noticias de la misma pgina acceden tambina la pgina de historia. Esto podra indicar que existe alguna noticiainteresante de la empresa que hace que los clientes se dirijan a histo-rias de suceso. Igualmente, este resultado permitira detectar la noticiasobresaliente y colocarla quiz en la pgina principal de la empresa.

    El sesenta por ciento de los clientes que hicieron una compra en lnea enla pgina del producto 1 tambin compraron en la pgina del producto4 despus de un mes. Esto indica que se podra recomendar en la pginadel producto 1 comprar el producto 4 y ahorrarse el costo de envo deeste producto.

    Los anteriores ejemplos ayudan a formar una pequea idea de lo que sepuede obtener. Sin embargo, en la realidad existen herramientas de mercadomuy poderosas con mtodos variados y visualizaciones grficas excelentes.

    5.2 Text mining

    Estudios recientes indican que el ochenta por ciento de la informacin de unacompaa est almacenada en forma de documentos. Sin duda, este campo deestudio es muy vasto, por lo que tcnicas como la categorizacin de texto, elprocesamiento de lenguaje natural, la extraccin y recuperacin de la informa-cin o el aprendizaje automtico, entre otras, apoyan al text mining (minera

  • 5.2. TEXT MINING 27

    de texto). En ocasiones se confunde el text mining con la recuperacin de la in-formacin (Information Retrieval o IR) (Hearst, 1999). sta ltima consiste enla recuperacin automtica de documentos relevantes mediante indexacionesde textos, clasificacin, categorizacin, etc. Generalmente se utilizan palabrasclave para encontrar una pgina relevante. En cambio, el text mining se refierea examinar una coleccin de documentos y descubrir informacin no contenidaen ningn documento individual de la coleccin; en otras palabras, trata deobtener informacin sin haber partido de algo (Nasukawa y otros, 2001).

    Una aplicacin muy popular del text mining es relatada en Hearst (1999).Don Swanson intenta extraer informacin derivada de colecciones de texto.Teniendo en cuenta que los expertos slo pueden leer una pequea parte delo que se publica en su campo, por lo general no se dan cuenta de los nuevosdesarrollos que se suceden en otros campos. As, Swanson ha demostradocmo cadenas de implicaciones causales dentro de la literatura mdica puedenconducir a hiptesis para enfermedades poco frecuentes, algunas de las cualeshan recibido pruebas de soporte experimental. Investigando las causas dela migraa, dicho investigador extrajo varias piezas de evidencia a partir dettulos de artculos presentes en la literatura biomdica. Algunas de esas clavesfueron:

    El estrs est asociado con la migraa.

    El estrs puede conducir a la prdida de magnesio.

    Los bloqueadores de canales de calcio previenen algunas migraas.

    El magnesio es un bloqueador natural del canal de calcio.

    La depresin cortical diseminada (DCD) est implicada en algunas mi-graas.

    Los niveles altos de magnesio inhiben la DCD.

    Los pacientes con migraa tienen una alta agregacin plaquetaria.

    El magnesio puede suprimir la agregacin plaquetaria.

    Estas claves sugieren que la deficiencia de magnesio podra representar unpapel en algunos tipos de migraa, una hiptesis que no exista en la litera-tura y que Swanson encontr mediante esas ligas. De acuerdo con Swanson(Swanson y otros, 1994), estudios posteriores han probado experimentalmenteesta hiptesis obtenida por text mining con buenos resultados.

  • Captulo 6

    Conclusin

    Nuestra capacidad para almacenar datos ha crecido en los ltimos aos a velo-cidades exponenciales. En contrapartida, nuestra capacidad para procesarlosy utilizarlos no ha ido a la par. Por este motivo, el data mining se presentacomo una tecnologa de apoyo para explorar, analizar, comprender y aplicar elconocimiento obtenido usando grandes volmenes de datos. Descubrir nuevoscaminos que nos ayuden en la identificacin de interesantes estructuras en losdatos es una de las tareas fundamentales en el data mining.

    En el mbito comercial, resulta interesante encontrar patrones ocultos deconsumo de los clientes para poder explorar nuevos horizontes. Saber que unvehculo deportivo corre un riesgo de accidente casi igual al de un vehculonormal cuando su dueo tiene un segundo vehculo en casa ayuda a crearnuevas estrategias comerciales para ese grupo de clientes. Asimismo, predecirel comportamiento de un futuro cliente, basndose en los datos histricos declientes que presentaron el mismo perfil, ayuda a poder retenerlo durante elmayor tiempo posible.

    Las herramientas comerciales de data mining que existen actualmente enel mercado son variadas y excelentes. Las hay orientadas al estudio del web oal anlisis de documentos o de clientes de supermercado, mientras que otrasson de uso ms general. Su correcta eleccin depende de la necesidad de laempresa y de los objetivos a corto y largo plazo que pretenda alcanzar. Ladecisin de seleccionar una solucin de data mining no es una tarea simple.Es necesario consultar a expertos en el rea con vista a seleccionar la msadecuada para el problema de la empresa.

    29

  • 30 CAPTULO 6. CONCLUSIN

    Como se ha visto a lo largo del este artculo, son muchas las reas, tc-nicas, estrategias, tipos de bases de datos y personas que intervienen en unproceso de data mining. Los negocios requieren que las soluciones tengan unaintegracin transparente en un ambiente operativo. Esto nos lleva a la nece-sidad de establecer estndares para hacer un ambiente interoperable, eficientey efectivo. Se exponen algunas iniciativas para estos estndares, incluyendoaspectos en:

    Modelos: para representar datos estadsticos y de data mining.

    Atributos: para representar la limpieza, transformacin y agregacin deatributos usados como entrada en los modelos.

    Interfaces y API: para facilitar la integracin con otros lenguajes o apli-caciones de software y API.

    Configuracin: para representar parmetros internos requeridos paraconstruir y usar los modelos.

    Procesos: para producir, desplegar y usar modelos.

    Datos remotos y distribuidos: para analizar y explorar datos remotos ydistribuidos.

    En resumen, el data mining se presenta como una tecnologa emergente,con varias ventajas: por un lado, resulta un buen punto de encuentro entre losinvestigadores y las personas de negocios; por otro, ahorra grandes cantidadesde dinero a una empresa y abre nuevas oportunidades de negocios. Adems,no hay duda de que trabajar con esta tecnologa implica cuidar un sinnmerode detalles debido a que el producto final involucra toma de decisiones.

  • Bibliografa

    [1] Jhon Wiley Alan Simon and Sons. Data Warehouse, Data Mining andOLAP. USA, 1997.

    [2] Mc Graw Hill Alex Berson, Stephen J. Smith. Data Warehouse, DataMining and OLAP. USA, 1997.

    [3] Mara Jos Ramrez Quintana Jos Hernndez Orallo. Extraccin Au-tomtica de Conocimiento en Bases de Datos e Ingeniera del Software.Espaa, 2003.

    [4] IBM Press. IBM DB2 Intelligent Miner for Data: Utilizacin del Visuali-zador de Asociaciones. IBM Press, USA, 1999.

    [5] IBM Press. IBM DB2 Warehouse Manager Gua de Instalacin Version7. IBM Press, USA, 2001.

    [6] IBM Press. IBM DB2 Intelligent Miner for Data: Utilizacin de IntelligentMiner for Data. IBM Press, USA, 2002.

    [7] IBM Press. IBM DB2 Intelligent Miner Visualization: Using the Intelli-gent Miner Visualizers. IBM Press, USA, 2002.

    [8] Colin J. White. IBM Enterprise Analytics for the Intelligent e-Business.IBM Press, USA, 2001.

    31