descubrimiento de subgrupos aplicado al portal de comercio ... · descubrimiento de subgrupos...

16
Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus MJ, García S Departamento de Informática * [email protected] | 953.21.19.56 Resumen El descubrimiento de subgrupos es una técnica de minería de datos descriptiva capaz de describir conocimiento con una estadística inusual con respecto a una variable de interés en un conjunto de datos. Algoritmos basados en esta técnica se han aplicado a las visitas registradas por los usuarios del portal de comercio electrónico OrOliveSur.com, que se centra en la venta de aceite de oliva virgen extra de la comarca de Sierra Mágina. Entre los resultados obtenidos cabe destacar la obtención de unos patrones de comportamiento por parte de los visitantes interesantes de cara al rediseño del portal web y así mejorar las ventas del mismo. Abstract Subgroup discovery is a descriptive data mining technique in order to describe knowledge with an unusual statistical with respect to an interest variable of the dataset. An algorithm based on subgroup discovery is applied to the visits registered in the e-commerce website OrOliveSur.com which is focused on the extra virgin olive oil from Sierra Magina. Results obtained show behaviour patterns of the users very interesting with respect to the design of the website. The improvements indicated in this work could increase the orders of the e-commerce.

Upload: dangtuyen

Post on 15-Nov-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

Descubrimientodesubgruposaplicadoalportaldecomerciodeelectrónico:OrOliveSur.comCarmonaCJ*,delJesusMJ,GarcíaSDepartamentodeInformática*[email protected]|953.21.19.56ResumenEldescubrimientodesubgruposesunatécnicademineríadedatosdescriptivacapazdedescribirconocimientoconunaestadísticainusualconrespectoaunavariabledeinterésenunconjuntodedatos.AlgoritmosbasadosenestatécnicasehanaplicadoalasvisitasregistradasporlosusuariosdelportaldecomercioelectrónicoOrOliveSur.com,quesecentraenlaventadeaceitedeolivavirgenextradelacomarcadeSierraMágina.Entrelosresultadosobtenidoscabedestacarlaobtencióndeunospatronesdecomportamientoporpartedelosvisitantesinteresantesdecaraalrediseñodelportalwebyasímejorarlasventasdelmismo.Abstract Subgroupdiscoveryisadescriptivedataminingtechniqueinordertodescribeknowledgewithanunusualstatisticalwithrespecttoaninterestvariableofthedataset.Analgorithmbasedonsubgroupdiscoveryisappliedtothevisitsregisteredinthee-commercewebsiteOrOliveSur.comwhichisfocusedontheextravirginoliveoilfromSierraMagina.Resultsobtainedshowbehaviourpatternsoftheusersveryinterestingwithrespecttothedesignofthewebsite.Theimprovementsindicatedinthisworkcouldincreasetheordersofthee-commerce.

Page 2: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

1.IntroducciónElcomercioelectrónicoeslacompra-ventadeproductososerviciosmedianteunmedioelectrónico,talescomointernetoredesdecomputadores.Originalmente,estetérminoseaplicómediantelaejecucióndetransaccionescomointercambiodedatoselectrónicos.Sinembargo,amediadosdelos90conlaaparicióndeinternetsecomenzóprincipalmentearealizarventasdebienesyservicioseninternet,utilizandoprimordialmentepagoselectrónicos.Lacantidaddepagoselectrónicoshacrecidodeformaexponencialenlosúltimosaños.Unaampliavariedaddecomercioselectrónicoshansidopublicadosenlosúltimostiempos[Soaresetal.2008],estimulandolacreaciónyutilizacióndeinnovacionescomotransferenciaselectrónicas,marketingeninternet,procesamientodetransaccionesonline,sistemasderecolecciónautomáticadedatos,etc.EnAndalucíaexisteunaaltaconcentracióndecooperativasolivarerasqueenlosúltimostiemposestánproliferandoenlaexportacióndesusproductos[Moral-PajaresandLanzas-Molina,2009],yelusodeportalesdecomercioelectrónicoenlascooperativasylaadopcióndeTecnologíasdelaInformaciónylaComunicación(TIC)sonclavesparaestasexportaciones.LautilizacióndelasTICssurgeparaproponermetodologíasdeanálisisinteligentedelosdatosparahabilitarlaextraccióndeconocimientoútildelosmismos[Fayyadetal,1996].EsteeselconceptodeDescubrimientodeConocimientoenGrandesBasesdeDatos(eninglés,KnowledgeDiscoveryDatabases–KDD),quefuedefinidocomoelprocesonotrivialdeidentificacióndepatronesenlosdatosconlassiguientescaracterísticas:válido,novedoso,útilycomprensible[Han,2005].ElprocesoKDDesunconjuntodepasosinteractivoseiterativos,incluyendoentreelloselpre-procesamientodelosdatosparacorregirimprecisionesoinconsistencias,reducirelnúmeroderegistrosoencontrarlaspropiedadesmásrepresentativas,mineríadedatosqueeslaetapafundamentaldelprocesodondeseextraeelconocimiento,yanálisisyvisualizacióndelosresultados.KDDcombinalastécnicastradicionalesdelaextraccióndeconocimientoconnumerososrecursosdesarrolladoseneláreadelainteligenciaartificial.Enelproyectoabordadosehadescritounametodologíaespecíficaparaextraerinformaciónútildelosdatosderegistrosdeusuariosregistradosenelportaldecomercioelectrónicohttp://www.orolivesur.com.EstosdatosderegistrosdeusuariosdeOrOliveSurhansidoobtenidosmediantelaherramientaGoogleAnalytics.OrOliveSur.comsecentraenlaventaanivelnacionaleinternacionaldeaceitedeolivavirgenextradelacomarcadeSierraMágina.Lasetapasllevadasacaboenelanálisisdeesteportalsonlasdescritaspreviamente,esdecir,unaetapadepreprocesamientoparaprepararlosdatos,extraccióndeconocimientoyanálisisdelosresultadosobtenidos.AlolargodeestetrabajosepresentaráunresumendelportaldecomercioelectrónicoOrOliveSur,delasdiferentestécnicasyalgoritmosdedescubrimientodesubgruposutilizadosparaobtenerconocimiento

Page 3: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

relacionadoconelcomportamientodelosusuariosenelportal,yparafinalizarsepresentanlosresultadosobtenidosenesteestudio.2.MaterialesyMétodosEnestasecciónsepresentanlascaracterísticasmásdestacadasdelportalOrOliveSur.com,lasprincipalescaracterísticasdelamineríadeusowebylospropiedadesyalgoritmodedescubrimientodesubgruposaplicadosalosdatos.2.1.Portaldecomercioelectrónico:OrOliveSur.comOrOliveSuresunproyectonacidoenlaprovinciadeJaénenAndalucía(España)enelaño2010.Elprincipalpropósitoesdaraconocerenelmundoeltesorodenuestratierra,elaceitedeolivavirgenextra.EstawebsecentroenelaceitedeolivaproducidoenunparticularterritoriodeJaén:ElparquenaturaldeSierraMágina.Estazonaesunáreaprotegidadeunas50.000hectáreasdeparquenaturalformadoporladerasboscosas,vallesrecónditosypicosmontañososescarpados.Elpicomásalto,MáginaeselmásaltodelaprovinciadeJaén,llegandoalos2167metrosdealtitudsobreelniveldelmar.

Ilustración1.Páginaprincipaldelportalwebhttp://www.OrOliveSur.com

ElampliocatálogoquepresentaOrOliveSursecentraenlavariedaddeaceitepicual.EstavariedadeslamásextensadelmundorepresentandoenEspañael

Page 4: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

50%delaproducción.LamayoríadeestaseencuentrasituadaenAndalucía,especialmenteenlaprovinciadeJaén.Laaceitunaesdeuntamañograndeyconformaalargadaconunpicoalfinaldelamisma.Losárbolesdeestavariedadsondeuncolorplataintenso,abiertosybienestructurados.Además,lavariedadpicualtieneunaspropiedadesexcelentesyaqueeslavariedadconmejorestabilidadyácidooleicoconrespectoaotrasvariedadescomoarbequinauhojiblanca,entreotras.Enlaactualidad,esteportaldeventadeaceiteseencuentratraducidoíntegramentealinglés,yparcialmentealalemán,francésydanés.

Ilustración2.Descripcióndeunproductodelportalwebhttp://www.OrOliveSur.com

Alolargodelosúltimosaños,OrOliveSurharecibidopedidostantonacionalescomointernacionalesdesdeDinamarca,Alemania,ReinoUnido,Francia,etc.,ysuspedidosyvisitasincrementandíaadía.Lacaracterísticamásdestacadadeesteportalserelacionaconlacalidad-preciodesusproductos,puesseofrecenproductosdecalidadavaladosporelConsejoReguladordelaDenominacióndeOrigen“SierraMágina”abaratandosuscostesenenvíoypresentandomúltiplesmétodosdepago.Todoslosproductosllevanunadescripcióndetalladadelos

Page 5: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

mismosconrespectoapropiedadesparafacilitaralosvisitanteslaeleccióndesusaceites.Porejemplo,enlaIlustración2sepuedeobservarlapresentacióndeunodesusproductos.2.2.MineríadeusowebEtzioni[Etzioni,1996]definiómineríawebcomoelusodetécnicasparadescubriryextraerconocimientoenunawebdeformaautomática,mientrasCooley[Cooleyetal,1999]fuemásalláenremarcarlaimportanciadeconsiderarelcomportamientoypreferenciasdelusuario.Encualquiercaso,losautorescoincidenensepararlamineríawebendistintasetapas[KosalaandBockeel,2000][Liu,2006]:

• Encontrarrecursos.• Seleccionarlainformaciónypreprocesar.• Descubrirelconocimiento.• Analizarlospatronesobtenidos.

Lamineríawebsepuedeclasificarentresdominiosconrespectoalanaturalezadelosdatos[Cooleyetal,1997][MarkovandLarose,2007]:mineríawebdecontenido,mineríadeestructuradedatosymineríadeusoweb.EnesteproyectonoscentramosenlamineríadeusowebquefuedefinidaporSrivastava[Srivastavaetal,2000]como:Elprocesodeaplicartécnicasdemineríadedatosparaeldescubrimientodepatronesútilesdesdelosdatosweb.Lospatronesserepresentancomounacoleccióndepáginasoítemsvisitadosporlosusuarios.Estospatronessepuedenemplearparacomprenderlasprincipalescaracterísticasdelcomportamientodelosusuariosparamejorarlaestructuradelawebycrearrecomendacionespersonalesydinámicassobreelcontenidodelaweb[Mobasher,2005].Lamineríadeusowebsepuedeemplearendiversaspropuestascomoporejemploparaanalizarsecuenciasdepáginas,calidaddeunawebobúsquedasglobalesefectivas.Todaslaspropuestashansidoclasificadasconrespectoaunataxonomíadefinidaen[FaccaandLanzi,2005]:

• Personalizacióncuyoobjetivosestábasadoenlarecomendacióndesistemas.

• Pre-fetchingycachingqueintentamejorarelrendimientodelosservidoresyaplicacionesenlacargadepáginasencachéantesquelosusuarioslassoliciten.

• Diseñoqueestárelacionadoconlausabilidaddeunaweb.Estudiosendiseñopuedenproporcionarlasmetasparamejorareldiseñodelaweb.

• ComercioelectrónicodondelastécnicasutilizadasdentrodeestegruposerelacionanconelCustomerRelationshipsManagement,queesunmodelodegestiónquepermiteincrementarlasventasdelosportalesdecomercioelectrónico.

Page 6: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

2.3.DescubrimientodesubgruposElconceptodedescubrimientodesubgruposfueintroducidoinicialmenteporKloesgen[Kloesgen,1996]yWrobel[Wrobel,1997]ydefinidoformalmentecomo[Wrobel,2001]:Endescubrimientodesubgrupos,asumimosunapoblacióndeindividuosdada(objetos,clientes,…)yunapropiedaddeestosindividuosenlaqueestemosinteresados.Latareadeldescubrimientodesubgruposesentoncesdescubrirlossubgruposdelapoblaciónquesonestadísticamente``másinteresantes'',esdecir,individuosqueseantangrandescomoseaposibleytengaunadistribuciónestadísticalosmásatípicaposible,conrespectoaunapropiedaddeinterés.Eldescubrimientodesubgruposintentabuscarrelacionesentrediferentespropiedadesovariablesdeunconjuntoconrespectoaunavariableobjetivo.Debidoaqueeldescubrimientodesubgruposestácentradoenlaextracciónderelacionesconcaracterísticasinteresantes,noesnecesarioobtenerrelacionescompletassinoquesuelesersuficienteconrelacionesparciales.Estasrelacionessondescritasenformadereglasindividuales.Así,unareglaR,queconsistedeunadescripcióndeunsubgrupoinducido,puedeserdefinidaformalmentecomo:

R:Cond->VarObjdondeVarObjeselvalordelavariabledeinterésovariableobjetivoparalatareadedescubrimientodesubgrupos(puedeaparecerademásenlabibliografíaespecíficacomoClase),yCondescomúnmenteunaconjuncióndefunciones(paresatributo-valor)queescapazdedescribirunadistribuciónestadísticainusualconrespectoalavariableobjetivo.EnunarecienterevisiónpresentadaporHerrerayotros[Herreraetal,2011]sepuedenobservarloselementosfundamentalesdeldescubrimientodesubgrupos,medidasdecalidadutilizadas,algoritmosyaplicacionesaproblemasreales.Acontinuaciónsemencionanlosprincipaleselementosdeldescubrimientodesubgrupos,lasmedidasdecalidadutilizadasenelprocesoyelalgoritmoempleadoenesteestudio.2.3.1.PrincipaleselementosdeldescubrimientodesubgruposExistendiferenteselementosaespecificareneldiseñodeunalgoritmodedescubrimientodesubgrupos.Estoselementossedefinenacontinuación[Atzmuelleretal,2004]:

• Tipodelavariableobjetivo.Sepuedenencontrardiferentestiposdevariableobjetivo:binaria,nominalonumérica.Paracadaunadeellassepuedenaplicardiferentesanálisisconsiderandoeltipodelavariableobjetivo.

Page 7: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

• Lenguajededescripción.Larepresentacióndelossubgruposdebeser

adecuadaparaobtenerreglasinteresantes.Lasreglasdebensersencillasyporellosesuelenrepresentarmedianteparesatributo-valorgeneralmenteenformanormalconjuntivaodisyuntiva.Además,losvaloressepuedenrepresentarmediantevalorespositivosy/onegativos,mediantelógicadifusa,omedianteelusodedesigualdadesoigualdades,entreotros.

• Medidasdecalidad.Éstassonunfactorclaveparalaextracciónde

conocimientoyaqueelinterésdelconocimientoextraídodependedirectamentedeellas.Además,lasmedidasdecalidadproporcionanalexpertolacalidadeimportanciadelossubgruposobtenidos.Sehanpresentadodiferentesmedidasdecalidadenlabibliografíaespecializada[GambergerandLavrac,2003][Kloesgen,1996][KloesgenandMay,2002][Lavracetal,2004],peroenningúnestudiopreviosehapresentadounconsensosobrecuálessonlasmásadecuadasparausarendescubrimientodesubgrupos.Enlasiguientesecciónsepresentaunresumendelasmedidasdecalidadutilizadas.

• Estrategiadebúsqueda.Esteelementoesmuyimportante,yaquela

dimensióndelespaciodebúsquedatieneunarelaciónexponencialrespectoalnúmerodepropiedadesyvaloresconsiderados.Hastaelmomentosehanutilizadodiferentesestrategias,porejemplobeamsearch,algoritmosevolutivos,búsquedaenespaciosmultirelacionales,etc.

2.3.2.MedidasdecalidadempleadasenesteestudioUnodelosaspectosmásrelevantespararesolverunproblemadedescubrimientodesubgruposeslaeleccióndelasmedidasmásadecuadasautilizarparaextraerlasmejoresreglasyevaluarlas.Enlaactualidad,existeunamplionúmerodemedidasdecalidadenlabibliografía.Lasmedidasmáscomunesdentrodeestatareasedescribenacontinuación:

• Confianzadifusa:Determinalafrecuenciarelativadelosejemplosquesatisfacentantoelantecedentecomoelconsecuentedeunareglaentreaquellosquesatisfacensóloelantecedente[DelJesusetal,2007].Secalculacomo:

𝐶𝑛𝑓𝐷 𝑅 =𝐴𝑃𝐶(𝐸! ,𝑅)!!∈!/!!∈!"#$%&

𝐴𝑃𝐶(𝐸! ,𝑅)!!∈!

dondeAPCeselgradodecompatibilidadentreunejemplo(E)yelantecedentedeunaregladifusa.Enelcasodereglasnodifusas,losgradosdepertenenciasonloscorrespondientesaconjuntosclásicos,esdecir0ó1.Estollevaríaalaobtencióndelosmismosvalores,tantoparalaconfianzadifusa,comoparalanítidaenproblemasquecontenganúnicamentevariablesdiscretas.

Page 8: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

• Relevancia:Larelevanciadeunareglasecalculaentérminosdesurazóndeverosimilitud,normalizadaconlarazóndeverosimilituddelumbralderelevancia,ysemidecomolarelacióndeprobabilidaddeunaregla[Kloesgen,1996].

𝑅𝑒𝑙𝑒 𝑅 = 2 ∙ 𝑛(𝑉𝑎𝑟𝑂𝑏𝑗! ∙ 𝐶𝑜𝑛𝑑) ∙ 𝑙𝑜𝑔𝑛(𝑉𝑎𝑟𝑂𝑏𝑗! ∙ 𝐶𝑜𝑛𝑑)

𝑛(𝑉𝑎𝑟𝑂𝑏𝑗!) ∙ 𝑝(𝐶𝑜𝑛𝑑)

!!

!!!

donden(VarObj-Cond)eselnúmerodeejemplosquesatisfacenlacondiciónyademáspertenecenalvalordelavariableobjetivoenlaregla,p(Cond)calculadocomon(Cond)/ns,seutilizacomounfactornormalizador,n(Cond)eselnúmerodeejemplosquesatisfacenlacondicióndeterminadaporelantecedentedelaregla,nseselnúmerodeejemplos,n(VarObj)eselnúmerodeejemplosdelavariableobjetivo,ynceselnúmerodevaloresdelavariableobjetivo.Aunquecadareglaestádefinidaparaunvalorespecíficodelavariableobjetivosedebedestacarquelamedidaderelevanciamidelanovedadenladistribuciónimparcialmente,paratodoslosvaloresdeestavariable.

• Sensibilidad:Estamedidamidelaproporcióndeejemploscorrectamente

descritos[Kloesgen,1996].Sepuedecalcularcomo:

𝑆𝑒𝑛𝑠 𝑅 = 𝑇𝑃𝑟 =𝑇𝑃𝑃𝑜𝑠 =

𝑛(𝑉𝑎𝑟𝑂𝑏𝑗 ∙ 𝐶𝑜𝑛𝑑)𝑛(𝑉𝑎𝑟𝑂𝑏𝑗)

dondePossontodoslosejemplosdelvalordelavariableobjetivoqueseestáanalizandon(VarObj).EstamedidadecalidadseutilizaparaevaluarlacalidaddelossubgruposenelespacioROC(ReceiverOperatingCharacteristic).Lamedidadesensibilidadcombinalaprecisiónygeneralidadgeneradaparaunvalordelavariableobjetivo.

• Atipicidad:Estamedidasedefinecomolaprecisiónrelativaconpesos

[Lavracetal,1999].Sepuedecalcularcomo:

𝐴𝑡𝑖𝑝 𝑅 =𝑛(𝐶𝑜𝑛𝑑)

𝑛!𝑛(𝑉𝑎𝑟𝑂𝑏𝑗 ∙ 𝐶𝑜𝑛𝑑)

𝑛(𝐶𝑜𝑛𝑑) ∙𝑛(𝑉𝑎𝑟𝑂𝑏𝑗)

𝑛!

Laatipicidaddeunareglasepuededescribircomoelbalanceentrelacoberturadelareglap(Condi)ysugananciadeprecisiónp(VarObj-Cond)-p(VarObj).

2.3.4.NMEEF-SDElalgoritmoutilizadoenestetrabajosedenominaNMEEF-SD,queprovienedelasinicialesdeNon-dominatedMulti-objectiveEvolutionaryalgorithmforExtractingFuzzyrulesinSubgroupDiscovery[Carmonaetal,2010b].Estealgoritmoesunsistemadifusoevolutivo,en[Herrera,2008]sepuedeencontrarunaampliadescripcióndeestetipodesistemas.

Page 9: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

ElobjetivoprincipaldelNMEEF-SDesextraersubgruposdescriptivosdifusosy/onítidos(dependiendodelanaturalezadelproblemaaresolver)queaportennovedad,precisióneinterpretabilidadalproblema.Elalgoritmoutilizamedidasdecalidaddereglasparaguiarelprocesodeaprendizaje,esdecirempleadiferentesmedidascomoobjetivosdelproceso,ytienecomoobjetivoobtenerreglasquealcancenvaloresadecuadosnosoloenestasmedidassinotambiénenotrosindicadoresdecalidadrelacionadosperonoconsideradosenesteprocesodebúsqueda.Además,estemodelopermiteelegirentreunconjuntodemedidascomosoporte,cobertura,relevancia,atipicidadyconfianza,lasmedidasdecalidadmásadecuadaspararesolverelproblemaplanteado.NMEEF-SDestáorientadoaresolverproblemasdedescubrimientodesubgruposyporelloutilizaoperadoresparaextraersubgrupossimpleseinterpretables,yconunaaltacalidadenlasmedidasestudiadas.ComoelobjetivogeneraldeNMEEF-SDesobtenerunconjuntodereglas,quedeberíansergeneralesyprecisas,elalgoritmoincluyecomponentesquepotencianestascaracterísticas.Másconcretamente,ladiversidadsemejoraenlapoblaciónutilizandounoperadordere-inicializaciónbasadaencobertura,ademásdelatécnicasdenichos(ladistanciadecrowdingeneloperadordeselección).Paraoptimizarlageneralidaddelossubgrupos,elalgoritmoincluyeoperadoresdeinicializaciónsesgadaymutaciónsesgada.Finalmente,parapotenciarlaprecisión,ademásdelosobjetivosempleadosporNMEEF-SDparaguiarelprocesoevolutivoysobrelasreglas,éstesolodevuelvecomosolucionesfinalesaquellasreglasquealcancenundeterminadoumbraldeconfianza.LaestructuradelasreglasutilizadasenelalgoritmoNMEEF-SDestábasadaenelusodelalógicadifusaparalarepresentacióndelasvariablescontinuas.Lasvariablescontinuassonconsideradascomovariableslingüísticas,ylosconjuntosdifusoscorrespondientesalasetiquetaslingüísticassepuedenespecificarporelusuarioodefinirsepormediodeunaparticiónuniformesielconocimientodelosexpertosnoestádisponible.ElalgoritmoNMEEF-SDpermitelaobtencióntantodereglasdifusascomonítidas,enfuncióndelanaturalezadelasvariablesdelproblemaaestudiar.Encasodetrabajarconvariablescontinuasseobtendránreglasdifusas,sisetrabajaconvariablesdiscretasseobtendránreglasnítidas,yencasodetrabajarenunproblemaconambostiposdevariablesseobtendránreglasquetendránamboscomponentes.3.ResultadosyDiscusiónElprincipalpropósitorealizadoenestetrabajosecentraenelestudiodeldiseñodelawebOrOliveSur.commediantetécnicasdemineríadeusoweb.EstastécnicassonaplicadasdentrodelprocesoKDDquesedivideendiferentesfases.Enconcreto,esteestudioserealizasiguiendolassiguientesfases:

Page 10: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

3.1.Recopilaciónypre-procesamientodelosdatosLosdatossonobtenidosmediantelaherramientaGoogleAnalyticsdesdeelperiodo1deeneroa31dediciembreenelaño2011.Además,seaplicandiversosfiltrosenelconjuntodedatosdecaraaobtenersoloinstanciasconíndicesdereboteinferioresal100%.Estevaloreselporcentajedevisitasdeunapáginaúnicaovisitasenlasquelapersonadejaelportalenlamismapáginaenlaquellega,esdecir,soloseconsideranvisitadondelosusuarioshanvisitadolawebdurantemásdeunsegundo.Entotalelconjuntodedatosestácompuestopor8832instancias,juntocondistintaspropiedadesdelasvisitasquesedetallanacontinuación:

• Navegador:Estapropiedadcontieneelnombregenéricodelnavegador

utilizadoporelusuarioensuvisita.Entrelosposiblesvaloresquesepuedenencontrarsepuedever:InternetExplorer,MozillaFirefox,Chrome,Safari,etc.

• Tipodevisitante:Contieneeltipodevisitante.Estevalorpuedecontenerel

valordenuevovisitante(N)orecurrente(R).

• Palabraclave:Eslapalabraclavedeaccesoporpartedelusuarioalaweb.Todaslaspalabrasclaveshansidoclasificadasenseiscategorías.Hayqueremarcarquelaspalabrasclavesepuedenencontrarendistintosidiomas,perotodasellashansidoclasificadossiguiendolatraducciónenelinglés:

o Oliveoil:Estevalorcontienetodaslaspalabrasgenéricas

relacionadasconaceitedeoliva,comoporejemplo:buyoliveoil,ventadeaceite,aceiteecológico,huiled’olive,etc.

o Iberianproduct:Enestevalorseagrupantodaslaspalabras

genéricassobreproductosibéricoscomojamónibérico,comprarjamóndebellota,buyibéricoacorn-fedham,etc.

o Brand:Estapalabracontienetodaslasentradasrelacionadasala

marcadelosproductosdelcatálogocomoLaCasona,VerdeSalud,GámezPiñar,OrOlivesur,etc.

o Gift:Contienevaloresrelacionadosaregaloscomoboda,cestasde

navidad,etc.

o Other:Estevaloragrupatodoslosaccesosconpalabrasclavenoclasificadapreviamente.

o Nothing:Losaccesossinpalabrasclavesonclasificadosconesta

palabraclavecomoporejemplolosaccesosdirectos.

• Recurso:Estapropiedadindicaelrecursoutilizadoporelvisitanteparaaccederalaweb:

Page 11: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

o Directo(D):Estevalorseutilizaparaaccesosrealizadosdirectosenlawebhttp://www.orolivesur.com

o MotordeBúsqueda(E):Estevalorseutilizaparaaccesosrealizados

atravésdemotoresdebúsquedacomoGoogle,YahoooBing,porejemplo.

o Correo(M):Indicaelaccesorealizadoatravésdecorreos

electrónicosconunenlacealaweb.

o Referencia(R):EstevalorseencuentraenaccesosrealizadosdesdeotraswebsconunenlacehaciaOrOliveSur.

o RedesSociales(N):Contienetodoslosaccesosrealizadosatravésde

redessocialescomoFacebook,Twitter,GooglePlus,etc.

• Nuevasvisitas:Indicaelnúmerodevisitasnuevasrealizadasconelmismonavegador,tipodevisitante,palabraclaveyrecurso.

• Páginasvistas:Indicaelnúmerodepáginasvistasporelusuarioconel

mismonavegador,tipodevisitante,palabraclaveyrecurso.

• Tiempoporvisita:Estapropiedadindicaeltiempoempleadoenlawebporlosusuariosconelmismonavegador,tipodevisitante,palabraclaveyrecurso.

• Visitas:Estapropiedadmuestraelnúmerodevisitasrealizadasconel

mismonavegador,tipodevisitante,palabraclaveyrecurso.

• Páginasvistasúnicas:Presentaelnúmerodepáginasúnicasporlosusuariosconelmismonavegador,tipodevisitante,palabraclaveyrecurso.

• Páginasvistasporvisita:Muestraelnúmerocompletodepáginasvistaspor

cadavisita.

• Páginasvistasúnicasporvisita:Muestraelnúmerocompletodepáginasúnicasvistasporcadavisita.

• Tiempoporpágina:Presentaeltiempoempleadoporcadausuariopor

páginavista.

3.2.MineríadedatosUnavezquelosdatoshansidopreparados,yaestánlistosparapasaralafasedemineríadedatosyaplicarelalgoritmoNMEEF-SD.ElprincipalobjetivodelaaplicacióndeNMEEF-SDesproporcionaralequipodedesarrolladoresdelportalweb,informaciónparamejorareldiseñodelawebe

Page 12: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

incrementarelnúmerodevisitasrecibidas.Enconclusiónelobjetivoesmejorarlavisualizacióndelportalyaumentarlasventasyclientesenelfuturo.Estatécnicasehautilizadoendiferentesdominiosysehanobtenidomuybuenosresultados[Romeroetal,2009][Carmonaetal,2010a][Carmonaetal,2011a][Carmonaetal,2011b][Carmonaetal,2013].EnlaTabla1sedescribenlosparámetrosutilizadosporNMEEF-SDenelestudiorealizado.Tabla1.ParámetrosutilizadosporelalgoritmoNMEEF-SD

Tamañodelapoblación=50Númerodeevaluaciones=10000Probabilidaddecruce=60%Probabilidaddemutación=10%Confianzamínima=0.6Representacióndelasreglas=CanónicasEtiquetaslingüísticas=9{Bastantebajo,Muybajo,Bajo,Normal,Alto,MuyAlto,BastanteAlto}Objetivo1=SensibilidadObjetivo2=Atipicidad3.3.AnálisisyvalidacióndelosdatosEnestasecciónsepresentanlosresultadosobtenidosporelalgoritmoNMEEF-SDparalosdatosobtenidosdelawebhttp://www.OrOliveSur.com.Comoyahemosmencionadopreviamente,elobjetivodeldescubrimientodesubgruposesobtenerrelacionesatípicasenlosdatosconrespectoaunavariabledeinterésuobjetivo.Enconcretoparaesteproblema,seanalizanpropiedadescomopalabrasclave,recursosdetipodevisitante,porejemplocomovariableobjetivo.Acontinuación,lossubgruposmásrelevantesquesehanobtenidoenesteestudioparaelalgoritmoNMEEF-SDconrespectoadiferentesvariablesobjetivoysusmedidasdecalidadasociadassemuestranenlaTabla2.Enestatablasedescribenlasreglasylasmedidasdecalidadrelevancia(RELE),atipicidad(ATIP),sensibilidad(SENS)yconfianzadifusa(FCNF).

Page 13: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

Tabla2.ReglasyresultadosobtenidosporNMEEF-SD

# Regla RELE ATIP SENS FCNFR1 SIrecurso=EENTONCESpalabraclave=

oliveoil1949.707 0.117 0.999 0.483

R2 SIrecurso=EENTONCESpalabraclave=Brand

1949.707 0.073 1.000 0.303

R3 SItiempo/páginasvistas=BajoENTONCESpalabraclave=nothing

3.920 0.001 0.999 0.448

R4 SItiempo=BajoENTONCESpalabraclave=nothing

11.175 0.005 0,982 0.486

R5 SIpalabraclave=nothingY páginasvistas=MuybajoY páginasvistas=MuybajoENTONCESrecurso=R

2216.810 0.090 0.996 0.373

R6 SIpalabraclave=nothingY únicaspáginasvistas=MuybajoENTONCESrecurso=R

2265.863 0.089 0.999 0.368

R7 SIpalabraclave=nothingY páginasvistas=MuybajoY page/visits=MuybajoENTONCESrecurso=R

2216.810 0.090 0.996 0.372

R8 SIpalabraclave=nothingY únicaspáginasvistas=MuybajoY únicaspage/visits=MuybajoENTONCESrecurso=R

2265.863 0.089 0.999 0.368

R9 SItipovisitante=NY únicaspáginasvistas=BajoENTONCESrecurso=E

90.077 0.038 0.658 0.653

R10 SInavegador=IEY páginasvistas=BajoENTONCESrecurso=E

137.419 0.057 0.575 0.709

R11 SInuevasvisitas=0 ENTONCEStipovisitante=R

2819.825 0.229 1.000 1.000

ComosepuedeobservarenlosresultadosobtenidosporNMEEF-SD,hayunagrannúmerodereglasconvaloresaceptablesenlamayoríademedidasdecalidad.AunquealgunasreglascomoR11esobviayaquesilosvisitantesnosonnuevoselconsecuenteesquelosusuariossonrecurrentes,nosayudanamostrarelcorrectofuncionamientodelalgoritmo.Entretodaslasreglasobtenidasporelalgoritmo,esinteresanteremarcarquelosusuariosqueaccedendirectamentealaweb,esdecirsinutilizaspalabrasclavecomoindicanlasreglasR3yR4,permanecenenlawebduranteuntiempoaceptableenlawebyeltiempoporpáginaesmuyinteresante.Además,lasreglasR5,R6,R7yR8muestranquelaspáginaswebquehacenreferenciaaOrOliveSur,talescomodirectoriosoblogs,sonvisitasconnúmeromuybajodepáginasvistasypáginasúnicasvistas.Enestesentido,elequipodedesarrolladoresdebemejorarladescripciónylaimagendeOrOliveSurenestaspáginasporqueesprobablequelosusuariosnoencuentrenloqueesperabanunavezlleganalaweb.Juntoatodoesto,lareglamásdestacadadescubiertaporelalgoritmoNMEEF-SDeslautilizacióndelnavegadorInternetExplorerporlamayoríadeusuarioquevisitanOrOliveSurmediantemotoresdebúsquedacomoGoogleoYahoo,porejemplo.Estosusuariosvisitanunamplionúmerodepáginasdentrodelportal.Enestesentido,recomendamosalequipodedesarrolladoresaanalizareldiseñodelawebparacomprobarquesemuestracorrectamenteenestenavegadorencualquierversión.

Page 14: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

4.ConclusionesEnestetrabajosehapresentadounestudiobasadoentécnicasdemineríadedatosendatos,paraanalizarelaccesodeusuariosaunportaldeventadeaceitedeolivaonline.ElpropósitoeraextraerconocimientosobrelainformacióndeaccesodelosusuariosalportaldecomercioelectrónicoOrOliveSur.com.LosdatoshansidoobtenidosmedianteherramientasdeanalíticaquefacilitanlaobtencióndelosmismoscomoGoogleAnalytics.Lacombinacióndemineríadedatosendatosprovenientesdeaccesodeusuariosenweb,secatalogacomomineríaweb.Enconcreto,enesteestudiosehapresentadounestudiodemineríadeusowebrealizadomedianteelalgoritmoNMEEF-SDparalaobtencióndesubgruposdifusosconrespectoadiferentesvariablesobjetivocomorecursodeacceso,palabraclavedeacceso,etc.Losresultadosobtenidosmuestrandosfactoresclave:

• Primero,elequipodedesarrolladoresdebenprestarespecialatenciónalosvisitantesquellegandesdepáginasdereferenciaporquepermanecenmuypocotiempoenelportal.

• Segundo,lamayoríadevisitasvienendesdeelnavegadorInternetExplorer.Ademásestasvisitassonusuariosquenaveganduranteunbuenperiododetiempoatravésdelaweb.

5.AgradecimientosEstetrabajohasidosoportadoporelMinisteriodeEconomíayCompetitividadbajoelproyectoTIN-2012-33856(FondosFEDER),porelPlanAndaluzdeInvestigaciónbajoelproyectoTIC-3928(FondosFEDER),porelPlandeInvestigacióndelaUniversidadbajoelproyectoUJA2010/13/07ypatrocinadoporlaCajaRuraldeJaén.6.Bibliografía

• [Atzmuelleretal,2004]Atzmueller,M.,Puppe,F.&Buscher,H.P.(2004):TowardsKnowledge-IntensiveSubgroupDiscovery.InProceedingsoftheLernen-Wissensentdeckung-Adaptivität-FachgruppeMaschinellesLernen,(pp.111–117).

• [Carmonaetal,2010a]Carmona,C.J.,González,P.,DelJesus,M.J.,Romero,C.,&Ventura,S.(2010).Evolutionaryalgorithmsforsubgroupdiscoveryappliedtoe-learningdata.InProceedingsoftheIEEEinternationaleducationengineering(pp.983–990).

• [Carmonaetal,2010b]Carmona,C.J.,González,P.,DelJesus,M.J.,&Herrera,F.(2010).NMEEF-SD:Nondominatedmulti-objectiveevolutionaryalgorithmforextractingfuzzyrulesinsubgroupdiscovery.IEEETransactionsonFuzzySystems,18,958–970.

• [Carmonaetal,2011a]Carmona,C.J.,González,P.,DelJesus,M.J.,Navío,M.,&Jiménez,L.(2011).Evolutionaryfuzzyruleextractionforsubgroup

Page 15: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

discoveryinapsychiatricemergencydepartment.SoftComputing,15,2435–2448.

• [Carmonaetal,2011b]Carmona,C.J.,González,P.,DelJesus,M.J.,&Ventura,S.(2011).Subgroupdiscoveryinane-learningusagestudybasedonMoodle,InProceedingsoftheinternationalconferenceofEuropeantransnationaleducation(pp.446–451).

• [Carmonaetal,2013]CarmonaCJ,ChrysostomouC,SekerH,delJesusMJ.(2013).FuzzyRulesforDescribingSubgroupsfromInfluenzaAVirusUsingaMulti-objectiveEvolutionaryAlgorithm.AppliedSoftComputing,13,3439-3448.

• [Cooleyetal,1997]Cooley,R.,Mobasher,B.,&Srivastava,J.(1997).Webmining:InformationandpatterndiscoveryontheWorldWideWeb.OnToolswithArtificialIntelligence,558–567.

• [Cooleyetal,1999]Cooley,R.,Mobasher,B.,&Srivastava,J.(1999).DatapreparationforminingWorldWideWebbrowsingpatterns.KnowledgeandInformationSystems,1,5–32.

• [Debetal,2002]Deb,K.,Pratap,A.,Agrawal,S.,&Meyarivan,T.(2002).Afastandelitistmultiobjectivegeneticalgorithm:NSGA-II.IEEETransactionsEvolutionaryComputation,6,182–197.

• [DelJesusetal,2007]DelJesus,M.J.,González,P.,Herrera,F.&Mesonero,F.(2007)EvolutionaryFuzzyRuleInductionProcessforSubgroupDiscovery:Acasestudyinmarketing.IEEETransactionsonFuzzySystems,15(4),578–592.

• [Etzioni,1996]Etzioni,O.(1996).TheWorldWideWeb:Quagmineorgoldmine.CommunicationsoftheACM,39,65–68.

• [FaccaandLanzi,2005]Facca,F.M.,&Lanzi,P.L.(2005).MiningInterestingKnowledgefromWeblogs:ASurvey,53,225–241.

• [Fayyadetal,1996]Fayyad,U.M.,Piatetsky-Shapiro,G.,&Smyth,P.(1996).Fromdataminingtoknowledgediscovery:Anoverview.InAdvancesinknowledgediscoveryanddatamining(pp.1–34).AAAI/MITPress.

• [GambergerandLavrac,2003]Gamberber,D.&Lavrac,N.(2003)Activesubgroupmining:acasestudyincoronaryheartdiseaseriskgroupdetection.ArtificialIntelligenceinMedicine,2003,28(1),27–57.

• [Han,2005]Han,J.(2005).Datamining:Conceptsandtechniques.MorganKaufmannPublishersInc.

• [Herrera,2008]HerreraF.(2008).Geneticfuzzysystems:taxomony,currentresearchtrendsandprospects.EvolutionaryIntelligence,1,27–46.

• [Herreraetal,2011]Herrera,F.,Carmona,C.J.,González,P.,&DelJesus,M.J.(2011).Anoverviewonsubgroupdiscovery:Foundationsandapplications.KnowledgeandInformationSystems,29,495–525.

• [Kloesgen,1996]Kloesgen,W.(1996).Explora:Amultipatternandmultistrategydiscoveryassistant.InAdvancesinknowledgediscoveryanddatamining(pp.249–271).AmericanAssociationforArtificialIntelligence.

• [KloesgenandMay,2002]Kloesgen,W.&May,M.(2002)CensusDataMining-Anapplication.InProceedingsofthe6thEuropeanConferenceonprinciplesofdataminingandknowledgediscovery,pp.65–79.

• [KosalaandBockeel,2000]Kosala,R.,&Bockeel,H.(2000).Webminingresearch:Asurvey.SIGKDDExplorations,2,1–15.

Page 16: Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos aplicado al portal de comercio de electrónico: OrOliveSur.com Carmona CJ *, del Jesus

• [Lavracetal,1999]Lavrac,N.,Flach,P.A.&Zupan,B.(1999)RuleEvaluationMeasures:AUnifyingView.InProceedingsofthe9thInternationalWorkshoponInductiveLogicProgramming,vol.1634LNCS,pp.174–185.Springer.

• [Lavracetal,2004]Lavrac,N.,Cestnik,B.,Gamberger,D.&Flach,P.A.(2004)DecisionSupportThroughSubgroupDiscovery:ThreeCaseStudiesandtheLessonsLearned.MachineLearning,57(1-2),115–143.

• [Liu,2006]Liu,B.(2006).Webdatamining:Exploringhyperlinks,contents,andusagedata(datacentricsystemsandapplications).Springer-Verlag.

• [MarkovandLarose,2007]Markov,Z.,&Larose,D.T.(2007).Dataminingtheweb.Uncoveringpatternsinwebcontent,structureandusage.Wiley-Interscience.

• [Mobasher,2005]Mobasher,B.(2005).Webusageminingandpersonalization.CRCPress,LLC.

• [Moral-PajaresandLanzas-Molina,2009]Moral-Pajares,E.,&Lanzas-Molina,J.R.(2009).LaexportaciondeaceitedeolivavirgenenAndalucia:Dinamicayfactoresdeterminantes.RevistadeEstudiosRegionales,86.

• [Romeroetal,2009]Romero,C.,González,P.,Ventura,S.,DelJesus,M.J.,&Herrera,F.(2009).Evolutionaryalgorithmforsubgroupdiscoveryine-learning:ApracticalapplicationusingMoodledata.ExpertSystemswithApplications,36,1632–1644.

• [Soaresetal.2008]Soares,C.,Peng,Y.,Meng,J.,Washio,T.,&Zhou,Z.H.(Eds.).(2008).Applicationsofdataminingine-businessandfinance.Frontiersinartificialintelligenceandapplications.IOSPress.

• [Srivastavaetal,2000]Srivastava,J.,Cooley,R.,Deshpande,M.,&Tan,P.(2000).Webusagemining:Discoveryandapplicationsofusagepatternsfromwebdata.SIGKDDExplorations,12–23.

• [Wrobel,1997]Wrobel,S.(1997).Analgorithmformulti-relationaldiscoveryofsubgroups.InProceedingsofthe1stEuropeansymposiumonprinciplesofdataminingandknowledgediscovery(pp.78–87).Springer.

• [Wrobel,2001]Wrobel,S.(2001).Inductivelogicprogrammingforknowledgediscoveryindatabases.Springer[ChapterRelationalDataMining,pp.74–101].