prevención de enfermedades infecciosas basada en el análisis...

4
Prevenci´ on de enfermedades infecciosas basada en el an´ alisis inteligente en RRSS y participaci´ on ciudadana Prevention of infectious diseases based on intelligent analysis in social networks and citizen participation ´ Oscar Apolinario 1, 2 , Jos´ e Medina-Moreira 1 , Harry Luna-Aveiga 1 , Jos´ e Antonio Garc´ ıa-D´ ıaz 3 , Rafael Valencia-Garc´ ıa 3 , Jos´ e Ignacio Estrade-Cabrera 4 1 Facultad de Ciencias Matem´aticas y F´ ısicas, Universidad de Guayaquil, Cdla. Universitaria Salvador Allende, Guayaquil, Ecuador 2 VIAMATICA S.A., Edif. San Francisco 300, C´ ordova y Av. 9 de Octubre, 090313,Guayaquil, Ecuador 3 Facultad de Inform´ atica, Universidad de Murcia, Campus de Espinardo, 30100, Murcia, Espa˜ na 4 DANTIA Tecnolog´ ıa S.L., Parque Empresarial de Jerez 10, Calle de la Agricultura, 11407, Jerez de la Frontera, C´ adiz, Espa˜ na {oscar.apolinarioa, [email protected], harry.lunaa}@ug.edu.ec {joseantonio.garcia8, valencia}@um.es [email protected], [email protected] Resumen: Este proyecto consiste en el desarrollo una plataforma inteligente de monitorizaci´on de enfermedades infecciosas a partir de la monitorizaci´on de redes sociales, fuentes de datos oficiales y la participaci´on ciudadana. Esta informaci´ on estar´a disponible para las autoridades sanitarias y gubernamentales a trav´ es de un panel de mandos personalizable para que puedan detectar zonas calientes en las que exista alg´ un tipo de brote o focos de infecci´ on. Tambi´ en estar´ a disponible un sistema de alertas para avisar a los ciudadanos cu´ando se ha detectado cierto nivel de alarma en radio cercano a donde se encuentran. Este proyecto est´a siendo desarrollado por la empresa de Ecuador VIAM ´ ATICA, algunos docentes de la Universidad de Gua- yaquil, la empresa espa˜ nola DANTIA y las Universidades de Murcia y Carlos III de Madrid. La parte espa˜ nola del proyecto est´ a financiada mediante una convocatoria de proyectos unilaterales del CDTI. Palabras clave: An´alisis de sentimientos, Infodemiolog´ ıa, Enfermedades Infeccio- sas, BlockChain Abstract: This project consists in the development of an intelligent platform for the monitoring of infectious diseases based on: text written in natural language on social networks, official data sources and citizen participation. This information will be available to the health and governmental authorities through a customizable control panel so they can detect hot areas in which there is some type of outbreak. An alert system will also be available to notify citizens when a certain level of alarm is detected in a nearby radius of where they are. This project is being developed by VIAM ´ ATICA (Ecuador), the University of Guayaquil (Ecuador), DANTIA (Spain) and the Universities of Murcia and Carlos III of Madrid (Spain). The Spanish part of the project is financed through the unilateral CDTI projects call. Keywords: Sentiment analysis, Infoveillance, Infectious Diseases, BlockChain 1 Introducci´ on Los brotes epid´ emicos son uno de los proble- mas m´ as graves a los que se enfrenta la espe- cie humana. En los ´ ultimos a˜ nos se han pro- ducido cerca de cinco alertas sanitarias inter- nacionales graves: el ZIKA, la Gripe Aviar, el Procesamiento del Lenguaje Natural, Revista nº 63, septiembre de 2019, pp. 163-166 recibido 27-03-2019 revisado 06-05-2019 aceptado 15-05-2019 ISSN 1135-5948. DOI 10.26342/2019-63-21 © 2019 Sociedad Española para el Procesamiento del Lenguaje Natural

Upload: others

Post on 17-Aug-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Prevención de enfermedades infecciosas basada en el análisis …rua.ua.es/dspace/bitstream/10045/96622/1/PLN_63_21.pdf · 2019. 9. 25. · Keywords: Sentiment analysis, Infoveillance,

Prevencion de enfermedades infecciosas basada en elanalisis inteligente en RRSS y participacion

ciudadana

Prevention of infectious diseases based on intelligent analysisin social networks and citizen participation

Oscar Apolinario1,2, Jose Medina-Moreira1, Harry Luna-Aveiga1,Jose Antonio Garcıa-Dıaz3, Rafael Valencia-Garcıa3

, Jose Ignacio Estrade-Cabrera4

1 Facultad de Ciencias Matematicas y Fısicas, Universidad de Guayaquil,Cdla. Universitaria Salvador Allende, Guayaquil, Ecuador

2 VIAMATICA S.A., Edif. San Francisco 300, Cordova y Av. 9 de Octubre,090313,Guayaquil, Ecuador

3 Facultad de Informatica, Universidad de Murcia,Campus de Espinardo, 30100, Murcia, Espana

4 DANTIA Tecnologıa S.L., Parque Empresarial de Jerez 10,Calle de la Agricultura, 11407, Jerez de la Frontera, Cadiz, Espana

{oscar.apolinarioa, [email protected], harry.lunaa}@ug.edu.ec{joseantonio.garcia8, valencia}@um.es

[email protected], [email protected]

Resumen: Este proyecto consiste en el desarrollo una plataforma inteligente demonitorizacion de enfermedades infecciosas a partir de la monitorizacion de redessociales, fuentes de datos oficiales y la participacion ciudadana. Esta informacionestara disponible para las autoridades sanitarias y gubernamentales a traves de unpanel de mandos personalizable para que puedan detectar zonas calientes en las queexista algun tipo de brote o focos de infeccion. Tambien estara disponible un sistemade alertas para avisar a los ciudadanos cuando se ha detectado cierto nivel de alarmaen radio cercano a donde se encuentran. Este proyecto esta siendo desarrollado porla empresa de Ecuador VIAMATICA, algunos docentes de la Universidad de Gua-yaquil, la empresa espanola DANTIA y las Universidades de Murcia y Carlos III deMadrid. La parte espanola del proyecto esta financiada mediante una convocatoriade proyectos unilaterales del CDTI.Palabras clave: Analisis de sentimientos, Infodemiologıa, Enfermedades Infeccio-sas, BlockChain

Abstract: This project consists in the development of an intelligent platform forthe monitoring of infectious diseases based on: text written in natural languageon social networks, official data sources and citizen participation. This informationwill be available to the health and governmental authorities through a customizablecontrol panel so they can detect hot areas in which there is some type of outbreak.An alert system will also be available to notify citizens when a certain level of alarmis detected in a nearby radius of where they are. This project is being developed byVIAMATICA (Ecuador), the University of Guayaquil (Ecuador), DANTIA (Spain)and the Universities of Murcia and Carlos III of Madrid (Spain). The Spanish partof the project is financed through the unilateral CDTI projects call.Keywords: Sentiment analysis, Infoveillance, Infectious Diseases, BlockChain

1 Introduccion

Los brotes epidemicos son uno de los proble-mas mas graves a los que se enfrenta la espe-

cie humana. En los ultimos anos se han pro-ducido cerca de cinco alertas sanitarias inter-nacionales graves: el ZIKA, la Gripe Aviar, el

Procesamiento del Lenguaje Natural, Revista nº 63, septiembre de 2019, pp. 163-166 recibido 27-03-2019 revisado 06-05-2019 aceptado 15-05-2019

ISSN 1135-5948. DOI 10.26342/2019-63-21 © 2019 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 2: Prevención de enfermedades infecciosas basada en el análisis …rua.ua.es/dspace/bitstream/10045/96622/1/PLN_63_21.pdf · 2019. 9. 25. · Keywords: Sentiment analysis, Infoveillance,

virus del Ebola, la Gripe Tipo A y el SARS.Aunque ninguno de ellos tuvo una elevadamortalidad ni comprometio la existencia hu-mana en su conjunto, si que supusieron ungrave perjuicio para la sociedad en generaly para las instituciones en particular; reper-cutiendo, ademas, negativamente en la eco-nomıa. Ademas, el virus del Zika, muy pre-sente en America Latina, tiene millones decasos infectados y miles de bebes estan sien-do afectados con trastornos neurologicos.

Para mitigar los efectos de estos brotes in-fecciosos, la Organizacion Mundial de la Sa-lud recomienda disenar estrategias de detec-cion temprana. El diseno de estas estrate-gias requiere disponer de suficientes eviden-cias para predecir, con suficiente probabili-dad, un brote epidemico. Aunque la mayorıade estos estudios se realiza a partir de da-tos clınicos recolectados en hospitales, la co-munidad cientıfica esta explorando metodosfiables alternativos para la adquisicion de in-formacion a traves de Internet. Sin embargo,estos sistemas tienen todavıa un amplio mar-gen de mejora ya que todavıa hacen interpre-taciones inadecuadas de los datos (Choi etal., 2016).

El presente proyecto consiste en el desa-rrollo de un sistema de monitorizacion de en-fermedades infecciosas que detecte zonas ca-lientes en las que existe algun tipo de brote ofoco de infeccion y comunique dicha informa-cion, de forma comprensible y aprovechable,tanto a los ciudadanos como a las autoridadessanitarias y gubernamentales.

A nivel tecnico, esta plataforma extrae da-tos de tres categorıas de fuentes de datos: 1)datos estructurados, a partir de la extracciondel conocimiento en fuentes de datos oficialespublicadas en la web; 2) evidencias, a partirde la participacion directa de la ciudadanıaidentificando y notificando directamente ca-sos encontrados por ellos y, finalmente, a par-tir de 3) datos no estructurados, procedentesde textos escritos en lenguaje natural proce-dente de redes sociales publicas, tales comoTwitter o Facebook.

Con la consecucion de los objetivos delproyecto se pretende, por un lado, reducirlos costes sociales y economicos derivados deltratamiento de estos brotes infecciosos y, porotro lado, mejorar la percepcion de la ciuda-danıa en temas de salud publica transparen-tes y participativos, permitiendo el empode-

Figura 1: Arquitectura del sistema

ramiento de la ciudadanıa1.

2 Arquitectura del sistema

Esta plataforma esta formado por cincomodulos: 1) Modulo de monitorizacion de re-des sociales, 2) Modulo Crawler de extraccionde datos oficiales, 3) Aplicacion multidispo-sitivo de participacion ciudadana, 4) Modulode sistema de filtrado y confianza basado enBlockChain y, 5) Modulo para la monitoriza-cion inteligente de enfermedades en tiemporeal (ver Figura 1).

Una caracterıstica clave de esta platafor-ma es el desarrollo de algoritmos de evalua-cion de la confianza basados en la credibilidadde la fuente, con objeto de descartar falsospositivos y de priorizar hallazgos relevantes.

Una vez la informacion ha sido filtrada,es presentada a los usuarios finales medianteun panel de mandos configurable, donde pue-den indicar que indicadores de rendimiento(KPIs) necesitan, con el fin de ayudarles a es-tablecer medidas estrategicas acerca de comoactuar ante posibles nuevos brotes o epide-mias.

A continuacion, se describen brevementecada uno de los modulos de la plataforma ha-ciendo mayor hincapie en los relacionados contecnologıas del lenguaje humano.

2.1 Modulo de monitorizacion deredes sociales

Este modulo se encarga de extraer informa-cion escrita en lenguaje natural en redes so-ciales. En pocas palabras, el sistema funcio-na de la siguiente manera: En primer lugar,se obtienen todos los mensajes que contie-nen palabras clave, ademas de otros indicado-res relacionados, de la enfermedad objetivo.

1https://www.who.int/csr/labepidemiology/projects/earlywarnsystem/en/

Óscar Apolinario, José Medina-Moreira, Harry Luna-Aveiga, José Antonio García-Díaz, Rafael Valencia-Garcia, José Ignacio Estrade-Cabrera

164

Page 3: Prevención de enfermedades infecciosas basada en el análisis …rua.ua.es/dspace/bitstream/10045/96622/1/PLN_63_21.pdf · 2019. 9. 25. · Keywords: Sentiment analysis, Infoveillance,

En segundo lugar, se emplean tecnicas de re-conocimiento de entidades (Ruiz-Martınez etal., 2012) y tecnicas de analisis de sentimien-tos basado en aspectos (Penalver-Martınez etal., 2014) para obtener la informacion subje-tiva relacionada con los topicos que tratan,ası como son los sıntomas, las causas o losmedicamentos. Para ello, se ha definido unaontologıa que describe el vocabulario princi-pal de las enfermedades infecciosas, sus sınto-mas, posibles focos de infeccion, medicamen-tos, etc. Esta ontologıa sera ampliada duranteel desarrollo del proyecto incluyendo mas in-formacion de enfermedades infecciosas ya queactualmente se ha centrado en las enferme-dades infecciosas transmitidas por mosquitocomo dengue, malaria, zika y chuchugua.

Con respecto al analisis de sentimientos,se ha compilado hasta el momento un cor-pus balanceado inicial de 8.966 tuits y sehan realizado pruebas con clasificadores bina-rios a partir de un modelo linguıstico basadoen el analisis y extraccion de variables psi-colinguısticamente relevantes especıfica paratextos escritos en castellano y en el espanolde America latina obteniendo unos buenos re-sultados iniciales (Garcıa-Dıaz et al., 2018).

2.2 Modulo Crawler de extraccionde datos oficiales

Este modulo se encarga de la obtencion dedatos estructurados a partir de un sistemade extraccion de conocimiento (crawler). Pa-ra ello, se emplean tecnicas de reconocimientode entidades, extraccion de terminos y cons-truccion automatica de ontologıas (Valencia-Garcıa et al., 2008) con el fin de extraer in-formacion relacionada con el dominio de lasenfermedades infecciosas. Debido a que la in-formacion se encuentra en la red en distin-tos formatos, tales como documentos web,imagenes o documentos de procesadores detexto, es necesario el desarrollo de diversosprocedimientos especıficos capaces de extraerinformacion para cada formato.

2.3 Aplicacion multidispositivo departicipacion ciudadana

Este modulo consiste en una aplicacion mul-tidispositivo de participacion ciudadana pa-ra la identificacion activa de factores de ries-go relacionados con enfermedades infecciosas.Los ciudadanos tambien etiquetaran sus con-tribuciones y participacion mediante etique-tas obtenidas de las ontologıas del dominio.

Esta aplicacion se ha disenado con un en-foque basado en Aplicaciones Web Progresi-vas por dos motivos. En primer lugar, parapermitir a los usuarios identificar evidenciasen zonas sin conexion a Internet, realizandoel envıo de datos una vez que recupere la co-nexion. En segundo lugar, para aumentar elperiodo de autonomıa del dispositivo a travesde minimizar el consumo de su baterıa (Ma-lavolta et al., 2017). Ademas, esta aplicacionincluye diversas tecnicas de gamificacion parafomentar la participacion ciudadana a travesde un sistema de reputacion y recompensas.

2.4 Modulo de sistema de filtradoy confianza basado enBlockChain

Este modulo se encarga del valorar la calidady la confianza de las distintas evidencias en-contradas por los modulos anteriormente des-critos. Al tratarse de informacion sensible, seha optado por usar la tecnologıa de cadena debloques (Blockchain) para garantizar la pri-vacidad de la informacion medica recolecta-da. Esta aplicacion de las cadenas de bloquesya ha sido estudiada en (Zyskind, Nathan, yothers, 2015), donde los autores describen unsistema descentralizado encargado de mane-jar informacion personal sensible.

Para asignar un nivel de confiabilidad alos datos extraıdos en redes sociales, se ana-lizan caracterısticas tales como si la cuentadel usuario ha sido validada o numero depublicaciones relevantes realizadas. Por otrolado, para valorar las evidencias recogidaspor los usuarios a traves de la aplicacion departicipacion ciudadana, se tienen en cuentaparametros como el historial del usuario o lafrecuencia de las mediciones.

2.5 Modulo para la monitorizacioninteligente de enfermedades entiempo real

Este modulo se encarga de la gestion y moni-torizacion de los parametros relacionados conlas enfermedades infecciosas a traves de unproceso guiado por ontologıas. En concreto,este sistema se encarga de cuatro apartadosprincipales: 1) Configuracion, que permite alos operarios del sistema crear areas de in-teres, a partir de especificar un area geografi-ca y las enfermedades objetivo a monitorizar;2) dashboard, que consiste en el desarrollo deun panel de mandos generico y configurabledonde los operarios podran indicar y confi-

Prevención de enfermedades infecciosas basado en el análisis inteligente en RRSS y participación ciuidadana

165

Page 4: Prevención de enfermedades infecciosas basada en el análisis …rua.ua.es/dspace/bitstream/10045/96622/1/PLN_63_21.pdf · 2019. 9. 25. · Keywords: Sentiment analysis, Infoveillance,

gurar los KPIs que estimen convenientes; 3)KPIs, que son indicadores de desempeno in-dependientes capaces de leer datos de maneraperiodica y de mostrar la informacion en dis-tintos formatos, tales como tablas o graficas;4) Sistema de alertas, capaz de configurar ynotificar automaticamente a los usuarios sus-critos en el momento en que los datos superencierto umbral establecido para que se tomenmedidas preventivas.

3 Trabajo futuro

El presente proyecto se encuentra todavıa enuna fase temprana y su desarrollo termina en2020. Para cada uno de los modulos se estanrealizando estudios basicos para comprobarla viabilidad de ciertas operaciones, especial-mente los relativos al modulo de modulo desistema de filtrado y confianza basado enBlockChain, descrito en la 2.4seccion 2.4.

Con respecto a las tecnicas de analisis desentimientos, se han llevado a cabo estudiosa la hora de analizar la polaridad de textosen castellano y en espanol de Mexico. Estossistemas linguısticos se han probado para cla-sificar el sentimiento a nivel general y se estatrabajando en la extraccion de conceptos apartir de una ontologıa para poder realizarun analisis mas minucioso basado en aspec-tos.

Durante el tiempo que queda de desarro-llo del proyecto esta previsto la mejora delas tecnologıas de extraccion de conocimientoy minerıa de opiniones basados en aspectos.Por otro lado, se desarrollara la aplicacionde participacion ciudadana que permitira eti-quetar las contribuciones con vocabulario deldominio, ademas que se analizaran tambiensus contribuciones en texto.

Por ultimo, se realizara una integracionde los datos estructurados y no estructura-dos dentro del primer prototipo de la plata-forma global. En este sentido, se planificarandistintas pruebas de campo para comprobarla calidad de las mediciones por parte de losusuarios en entornos sin conexion a Internet.

En la segunda anualidad tambien se desa-rrollaran las tecnologıas de analisis inteligen-te de datos guiado por ontologıas en el quese permitira seleccionar distintos conceptosde las ontologıas para ası solamente realizarel analisis inteligente sobre los datos relacio-nados con esos conceptos.

Agradecimientos

Este trabajo esta siendo financiado por elCDTI dentro del proyecto con referencia IDI-20180989 dentro de la convocatoria de pro-yectos unilaterales.

Bibliografıa

Choi, J., Y. Cho, E. Shim, y H. Woo. 2016.Web-based infectious disease surveillancesystems and public health perspectives: asystematic review. BMC Public Health,16(1):1238.

Garcıa-Dıaz, J. A., O. Apolinario-Arzube,J. Medina-Moreira, J. O. Salavarria-Melo, K. Lagos-Ortiz, H. Luna-Aveiga, yR. Valencia-Garcıa. 2018. Opinion mi-ning for measuring the social perceptionof infectious diseases. an infodemiologyapproach. En International Conferenceon Technologies and Innovation, paginas229–239. Springer.

Malavolta, I., G. Procaccianti, P. Noorland,y P. Vukmirovic. 2017. Assessing the im-pact of service workers on the energy effi-ciency of progressive web apps. En Procee-dings of the 4th International Conferenceon Mobile Software Engineering and Sys-tems, paginas 35–45. IEEE Press.

Penalver-Martınez, I., F. Garcıa-Sanchez,R. Valencia-Garcıa, M. A. Rodriguez-Garcıa, V. Moreno, A. Fraga, y J. L.Sanchez-Cervantes. 2014. Feature-basedopinion mining through ontologies. ExpertSystems with Applications, 41(13):5995–6008.

Ruiz-Martınez, J. M., R. Valencia-Garcıa,R. Martınez-Bejar, y A. Hoffmann. 2012.Bioontoverb: A top level ontology basedframework to populate biomedical onto-logies from texts. Knowledge-Based Sys-tems, 36:68–80.

Valencia-Garcıa, R., J. T. Fernandez-Breis,J. M. Ruiz-Martınez, F. Garcıa-Sanchez,y R. Martınez-Bejar. 2008. A know-ledge acquisition methodology to onto-logy construction for information retrievalfrom medical documents. Expert Systems,25(3):314–334.

Zyskind, G., O. Nathan, y others. 2015. De-centralizing privacy: Using blockchain toprotect personal data. En 2015 IEEESecurity and Privacy Workshops, paginas180–184. IEEE.

Óscar Apolinario, José Medina-Moreira, Harry Luna-Aveiga, José Antonio García-Díaz, Rafael Valencia-Garcia, José Ignacio Estrade-Cabrera

166