sistema anonimizador conforme a la norma une-en iso13606

Sistema anonimizador conforme a la norma UNE-EN ISO 13606

R. Somolinos Cristóbal1, A. Muñoz Carrero2, M. Pascual Carrasco2, M. Carmona Rodríguez1, J.A. Fragua Méndez1, M.A. González de Mingo1, J. Cáceres Tello2, R. Sánchez de Madariaga2, A.L. Castro

Serrano2, I. Velázquez Aza2, M. E. Hernando Pérez3

1 Laboratorio de Bioingeniería y Telemedicina, Hospital Universitario Puerta de Hierro Majadahonda, Majadahonda, Madrid, España, {rsomolinos, montse, jfragua, magonzalez}@bioing.cph.es

2 Unidad de Investigación en Telemedicina y e-Salud, Instituto de Salud Carlos III, Madrid, España, {adolfo.munoz,mario.pascual, jcaceres, ricardo.sanchez, alcastro, iker.velazquez}@isciii.es

3 Grupo de Bioingeniería y Telemedicina, Universidad Politécnica de Madrid, Madrid, España, [email protected]

Resumen La seguridad en el uso y la transferencia de extractos de Historia Clínica Electrónica es un tema de gran importancia dentro de la Telemedicina. Este trabajo describe el diseño, desarrollo e implementación de un sistema anonimizador conforme a la norma UNE-EN ISO 13606. La finalidad principal del anonimizador es servir como herramienta a sistemas de información para la extracción de la información demográfica de sus extractos para evitar su envío conjunto a la información clínica, y por tanto proteger los datos ante posibles intercepciones externas, ya sea en la comunicación o en el sistema de información receptor. Se ha elegido la norma UNE-EN ISO 13606 para el desarrollo del sistema debido a que se trata de una norma de gran relevancia y difusión mundial y a que permite lograr la interoperabilidad semántica entre sistemas de información heterogéneos. Además, esta norma posee un paquete demográfico diseñado para representar las entidades demográficas en el extracto mediante un conjunto de identificadores, característica especialmente útil para los propósitos del sistema anonimizador.

1. Introducción

La Historia Clínica Electrónica (HCE) y la transferencia de extractos de la misma entre sistemas de información heterogéneos es un tema de gran importancia dentro de la investigación en Telemedicina. Uno de sus aspectos clave es la seguridad, ya que se transmite información sensible, tanto de carácter clínico como de carácter demográfico. Las diferentes normas e iniciativas desarrolladas incluyen soluciones técnicas sobre seguridad. Sin embargo, se puede aumentar el nivel de seguridad de la información transmitida separando la información clínica de la demográfica y esto se consigue mediante la anonimización de los extractos de la HCE. Además, existen muchos escenarios en los que no es necesario trabajar con la información demográfica como ocurre en investigación, docencia y estadística, y por tanto es mucho más seguro utilizar los extractos anonimizados.

Para conseguir este objetivo, se diseñó y desarrolló un sistema anonimizador conforme a la norma UNE-EN ISO 13606. La información clínica se transmite siguiendo los mecanismos establecidos en la norma, pero en lugar de transmitir el extracto completo, se transmite el extracto anonimizado, ya que, en caso de ser interceptado por

agentes externos en la transmisión o en el sistema de información receptor, su información clínica no podrá ser asociada con ninguna entidad concreta.

La anonimización del extracto de HCE consiste, básicamente, en la eliminación de toda la información demográfica del extracto (previo envío a un servidor demográfico) y la sustitución de todos los identificadores presentes en el extracto que pudieran asociarse con entidades demográficas concretas.

Los sistemas receptores, si desearan conocer información demográfica de las entidades participantes en el extracto, deberían solicitar dicha información al servidor demográfico, que será el encargado de verificar los derechos de acceso a la información antes de presentarla.

El sistema anonimizador desarrollado ya ha sido desplegado sobre un proyecto en activo (FIS 08/1148) de nuestro grupo de investigación. En este proyecto se realiza un volcado de información anonimizada de diversas fuentes a un servidor de HCE para un posterior uso secundario de la misma.

2. Norma UNE-EN ISO 13606

El Comité Europeo de Normalización (CEN) [1] ha sido el encargado de elaborar la norma UNE-EN ISO 13606, cuyo principal objetivo es normalizar la transferencia de las HCE, o de parte de las mismas. La norma está basada en un doble modelo que separa desde el diseño la información y el conocimiento [2]. Gracias a esta norma se consigue que los sistemas que intercambian información sean semánticamente interoperables. La norma UNE-EN ISO 13606 es una de las más asentadas mundialmente en la temática de la normalización de HCE, sin embargo existen otras iniciativas y estándares de gran importancia como HL7v3 [3] y openEHR [4], y ya existen proyectos para llegar a soluciones comunes interoperables.

La norma UNE-EN ISO 13606 consta de cinco partes, de las cuales la parte 1 describe el modelo de referencia (modelo de información) de la norma. Este modelo proporciona las clases necesarias para representar la información clínica y de contexto, e incluye un paquete separado para la información demográfica de todos

aquellos actores que intervienen en la HCE (pacientes, personal sanitario, organizaciones, dispositivos, etc). Esta separación es muy útil a la hora de anonimizar la información, pues permite representar a las entidades en todo el registro únicamente mediante un código, que puede ser privado, sin relación con el resto de identificadores que puedan tener. De esta manera los envíos mantienen el anonimato de dichas entidades y tan sólo aquellos actores debidamente autorizados podrían recuperar las identidades demográficas acudiendo directamente al anonimizador.

En la figura 1 se muestran las clases del paquete demográfico y las relaciones existentes entre ellas a través de un diagrama UML.

Figura 1. Paquete demográfico del modelo de referencia

2.1. Clase IDENTIFIED_ENTITY

La clase IDENTIFIED_ENTITY es una clase abstracta que se utiliza para englobar a todos los tipos de entidades demográficas. De ella heredan el resto de clases que representan los diferentes tipos de entidades: SOFTWARE_OR_DEVICE (software o dispositivos), ORGANISATION (organizaciones), PERSON (personas), IDENTIFIED_HEALTHCARE_PROFESSIONAL (identificación de profesionales sanitarios) y SUBJECT_OF_CARE_PERSON_IDENTIFICATION (identificación del sujeto de atención).

La clase IDENTIFIED_ENTITY incluye los campos comunes a todas las entidades demográficas. Son los siguientes:

• extract_id: campo de tipo II , es el identificador único utilizado para representar a esta entidad demográfica dentro del extracto

• id: es un conjunto de identificadores (de tipo II ) desde los cuales se puede referenciar a esta entidad demográfica

2.2. Tipo II (Instance Identifier)

El tipo de datos II (Instance Identifier) se utiliza para representar objetos identificadores. La clase II contiene seis campos: root, extension, identifierName, displayable, scope y reliability. Los campos más importantes de esta clase son root y extension, ya que dos objetos de tipo II se consideran iguales si y sólo si sus valores de los campos root y extension son iguales.

El campo root es un identificador único que garantiza la global unicidad de los objetos de tipo II . Es el espacio de nombres, un código asignado a una entidad que asegura que todos los objetos II que se generen bajo ese valor del campo root serán únicos.

El campo extension es una cadena de caracteres que forma un identificador único. El binomio root/extension asegura que si hay dos objetos II con los mismos valores en los campos root y extension, entonces ambos objetos se están refiriendo a la misma entidad.

3. Descripción del sistema

Nuestro grupo de investigación mantiene durante los últimos años como una de sus principales líneas de trabajo la normalización en la transferencia de la HCE. Como fruto de anteriores proyectos en esta línea se desarrolló un servidor de HCE acorde a la norma UNE-EN ISO 13606 [5, 6] y éste es el punto de partida del anonimizador diseñado. El nuevo sistema utiliza las librerías del modelo de referencia y de los tipos de datos del servidor de HCE. El sistema se ha desarrollado utilizando Java como lenguaje de programación, MySQL para las bases de datos, XML como lenguaje de marcado, XML Schemas para definir las estructuras de datos, librerías JPA para el almacenamiento permanente, librerías JAXB para la generación automática de clases Java y como tecnología de comunicaciones se han utilizado Web Services implementados mediante la herramienta Axis2 y desplegados sobre un servidor de aplicaciones Apache Tomcat.

El anonimizador es un sistema totalmente independiente de los sistemas de información a los que ofrece servicio. Por tanto, se puede desplegar en varias configuraciones. La configuración más realista es que se ubique en la misma localización que el sistema de información emisor, de esta forma se evitan posibles intercepciones de la información no anonimizada en el camino entre el sistema emisor y el anonimizador. Una configuración ideal, pero menos realista en la actualidad, sería que éste fuese un servicio proporcionado por alguna organización centralizada, en la que se instalase el sistema anonimizador, que daría servicio a múltiples sistemas de información y así el servidor demográfico asociado registraría datos globales, no sólo los concernientes a un sistema emisor concreto.

El sistema consta de dos módulos principales: un servidor demográfico y un anonimizador. Ambos módulos utilizan Web Services para ofrecer acceso a sus clientes a través de una serie de funciones públicas. El servidor demográfico puede trabajar de forma totalmente independiente con clientes que deseen guardar o recuperar

la información demográfica de ciertas entidades. Sin embargo, el anonimizador trabaja de forma colaborativa con un servidor demográfico asociado, de forma que el anonimizador accede como cliente a las funciones que oferta el servidor demográfico.

El servidor demográfico se encarga del almacenamiento permanente de las entidades demográficas. Dispone de funciones para que sus clientes puedan guardar entidades demográficas y recuperarlas a través de sus identificadores. También dispone de unas funciones de gestión de identificadores de las entidades demográficas, especialmente útiles para sus clientes “anonimizadores”.

El sistema anonimizador se encarga de anonimizar un extracto dado a partir de un valor root también dado. El anonimizador envía toda la información demográfica del extracto al servidor demográfico asociado para su almacenamiento y la elimina del extracto. También gestiona todos los identificadores relevantes de tipo II que aparecen en el extracto para ser sustituidos por otros, si es necesario, cuyo valor del campo root sea el pasado como parámetro y actualiza el servidor demográfico para asociar los nuevos identificadores con las entidades demográficas a las que se refieren en los casos necesarios. El anonimizador genera un nuevo extracto con la misma información clínica que el inicial, pero sin información demográfica explícita y con nuevos identificadores otorgados por una nueva entidad (campo root), de manera que sólo es posible acceder a los datos demográficos mediante el servidor demográfico asociado y siempre con los permisos de acceso necesarios.

Figura 2. Flujo de trabajo del sistema anonimizador

3.1. Servidor demográfico

Nuestro grupo de trabajo ya desarrolló y presentó una versión anterior del servidor demográfico [7]. Sin embargo, desde entonces se han realizado cambios significativos sobre el servidor demográfico, principalmente dirigidos a su interacción con el anonimizador.

El servidor tiene dos funciones públicas que permiten tanto el almacenamiento como la recuperación de los datos de las entidades demográficas:

• registraIdentiedEntity: esta función permite guardar en las bases de datos del servidor demográfico los datos de un objeto IDENTIFIED_ENTITY que se envía como parámetro de entrada.

• recuperaIdentiedEntity: esta función devuelve, en caso de éxito, un objeto IDENTIFIED_ENTITY que contiene los datos demográficos correspondientes a la entidad referenciada por el identificador de tipo II formado por los valores root y extension pasados como parámetros de entrada en la función.

El servidor demográfico también dispone de varias funciones destinadas principalmente a facilitar la gestión de los identificadores por parte de sus clientes de tipo “anonimizador”:

• existeII: tiene como parámetros de entrada dos campos textuales root y extension que definen un identificador de tipo II . Esta función busca si existe en el servidor demográfico algún objeto II almacenado con los mismos valores en dichos campos. En caso de encontrarlo devuelve el valor true y en caso contrario devuelve false.

• equivalenteExtension: esta función busca en el servidor demográfico si existe un identificador de tipo II equivalente (que identifique a la misma entidad) que otro identificador II pasado por parámetros de entrada (root y extension) y cuyo valor del campo root sea igual que el parámetro de entrada equivalenteRoot. Si encuentra dicho identificador devuelve el valor de su campo extension, sino devuelve null.

• actualizaSetId: esta función actualiza el servidor demográfico para guardar un nuevo identificador II (parámetro de entrada) en sus bases de datos y hacer que se refiera a la misma entidad demográfica que otro identificador II (parámetro de entrada) ya registrado en el servidor.

3.2. Anonimizador

Este módulo dispone de muchas funciones, pero sólo una de ellas es pública y accesible por sus potenciales clientes web. El resto de funciones son privadas y se invocan internamente en las diferentes secciones que componen el proceso de anonimización de los extractos de HCE.

La función accesible se denomina anonimizaExtracto. Tiene dos parámetros de entrada: el extracto a anonimizar (extract) y una cadena textual (rootProject) que indica el valor del campo root de todos los identificadores que se van a usar en la anonimización del extracto. El resultado que devuelve esta función es el extracto anonimizado.

La anonimización de extractos de HCE consta de las siguientes fases:

1) Almacenamiento de la información demográfica incluida en el extracto. El extracto 13606 tiene un campo no obligatorio denominado demographic_extract en el que se incluyen los datos demográficos de entidades relacionadas con el extracto. Para cada una de estas entidades se comprueba si ya está almacenada en el servidor demográfico asociado (mediante su conjunto de identificadores). En caso de estar ya almacenada se procede a actualizar los identificadores que apuntan a esta entidad en el servidor demográfico. En caso contrario se envía

la entidad completa al servidor demográfico para su almacenamiento.

2) Sustitución de los identificadores de entidades del extracto. En el extracto hay varios campos apuntados por identificadores de tipo II que se refieren a entidades demográficas que intervienen en el extracto. Aunque los identificadores, en sí mismos, no contienen información demográfica, deben ser sustituidos puesto que agentes externos ya podrían conocer a qué entidad se refiere cada identificador. El campo más claro que debe ser sustituido es subject_of_care de la clase EHR_EXTRACT, que se refiere al sujeto de atención. Pero también hay otros campos menos obvios que deben ser anonimizados igualmente como el campo performer de la clase FUNCTIONAL_ROLE y el campo party de la clase RELATED_PARTY. Los nuevos identificadores de tipo II a usar tendrán rootProject como valor de su campo root. El valor de su campo extension se asignará de forma que se asegure que no existan identificadores replicados y también se actualizarán las entidades demográficas guardadas en el servidor con los nuevos identificadores asignados. En caso de que alguna entidad ya tuviera algún identificador con el valor de rootProject en su campo root, se usará dicho identificador para incluirlo en el extracto anonimizado.

3) Supresión de la información demográfica incluida en el extracto. Se eliminan todos los datos incluidos en el campo demographic_extract del extracto de HCE. Opcionalmente se puede mantener algunos datos (sexo, edad) en este campo, de manera que sean de utilidad para usos secundarios como estudios estadísticos e investigación y que se siga manteniendo el anonimato de las entidades.

4. Conclusiones

El sistema anonimizador desarrollado supone una novedosa implementación de este servicio utilizando la norma UNE-EN ISO 13606. En principio surgió como una prueba de concepto para demostrar que los modelos que ofrece la norma permiten la anonimización de los extractos. Sin embargo, se observó que el sistema desarrollado poseía gran potencialidad, y, posteriormente, se integró en un proyecto de Telemedicina, actualmente en producción, presentando resultados satisfactorios. La anonimización de los extractos de HCE impide la identificación de los propietarios de los datos clínicos enviados, de esta forma se facilita el cumplimiento de la actual ley de protección de datos.

La norma UNE-EN ISO 13606, en concreto su modelo de referencia, separa claramente la información clínica de la demográfica. De manera que si existen referencias a entidades demográficas dentro de la información clínica se realicen únicamente a través de identificadores. Por otro lado, las entidades demográficas pueden poseer más de un identificador para ser referenciadas y esto se indica

en un campo propio de la entidad demográfica. Estas características, propias de la norma, facilitan la gestión de identificadores y la anonimización de los extractos. Por lo que la norma reúne las características ideales para ser la base del sistema anonimizador.

Al realizar la anonimización de los extractos, también se guarda la información demográfica de todas las entidades participantes en un servidor demográfico. Dicha información estará siempre disponible, tanto para el proyecto que la generó como para cualquier otro uso. Cualquier agente podría solicitar dichos datos al servidor demográfico, y el servidor demográfico podrá mostrarlos comprobando previamente que el solicitante posee los permisos necesarios para acceder a dicha información. Debido a la universalidad de la norma UNE-EN ISO 13606, los datos devueltos por el servidor demográfico serán fácilmente interpretables por cualquier sistema que cumpla con esta norma.

Como trabajo futuro se pretende implantar el servicio desarrollado en los proyectos de Telemedicina activos de nuestro grupo de trabajo y mejorar el servicio con la experiencia que obtendremos a partir de dichas implantaciones.

Agradecimientos Este trabajo ha sido financiado parcialmente por los proyectos CEN-20091043 (REHABILITA), FIS 09/90094 (PITES) y FIS 08/1148 (CAMAMA).

Referencias [1] Página web del Comité Europeo de Normalización (CEN).

http://www.cen.eu (Consultada: agosto 2012) [2] Beale T. Archetypes: Constraint-based Domain Models for

Future-proof Information Systems. http://www.openehr.org/publications/archetypes/archetypes_beale_oopsla_2002.pdf (Consultada: agosto 2012)

[3] Página web de Health Level Seven Spain (HL7). http://www.hl7spain.org (Consultada: agosto 2012)

[4] Página web de openEHR. http://www.openehr.org (Consultada: agosto 2012)

[5] Muñoz A, Somolinos R, Pascual M, Fragua JA, González MA, Monteagudo JL, Salvador CH. Proof-of-concept Design and Development of an EN13606-based Electronic Health Care Record Service. Journal of the American Medical Informatics Association (J Am Med Inform Assoc), vol 14, 2007, pp 118-129 (DOI 10.1197/jamia.M2058).

[6] Somolinos R, Muñoz A, Fragua JA, Pascual M, González MA, Salvador CH. Servidor de extractos de historias clínicas conformes a la norma EN 13606. Actas del XXIII Congreso Anual de la Sociedad Española de Ingeniería Biomédica (CASEIB'05), Madrid, 10-12 noviembre 2005, pp 39-42.

[7] Somolinos R, Muñoz A, González MA, Pascual M, Fragua JA, Carmona M, Sánchez R, Cáceres J, Castro AL, Hernando ME. Servidor demográfico conforme a la norma UNE-EN ISO 13606. Actas del XXVIII Congreso Anual de la Sociedad Española de Ingeniería Biomédica (CASEIB'10), Madrid, 24-26 noviembre 2010.

sistema anonimizador conforme a la norma une-en iso13606

Documents