trabajo fin de mÁster desarrollo y aplicación de técnicas

84
TRABAJO FIN DE MÁSTER Desarrollo y aplicación de técnicas de Meta-análisis en estudios de asociación genética Raquel López Alcaraz Departamento de Estadística e Investigación Operativa Universidad de Granada TUTOR GENYO: Pedro Carmona Sáez TUTORA UGR: Yolanda Román Montoya Declaro explícitamente que el trabajo presentado es original, entendido en el sentido de que no he utilizado fuentes sin citarlas debidamente. Fdo.: Raquel López Alcaraz Granada, septiembre de 2015

Upload: others

Post on 18-Nov-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

TRABAJO FIN DE MÁSTER

Desarrollo y aplicación de técnicas de

Meta-análisis en estudios de asociación

genética

Raquel López Alcaraz

Departamento de Estadística e Investigación Operativa

Universidad de Granada

TUTOR GENYO: Pedro Carmona Sáez

TUTORA UGR: Yolanda Román Montoya

Declaro explícitamente que el trabajo presentado es original, entendido

en el sentido de que no he utilizado fuentes sin citarlas debidamente.

Fdo.: Raquel López Alcaraz

Granada, septiembre de 2015

RESUMEN

Hoy en día son llevados a cabo numerosos estudios de asociación genética en las

investigaciones científicas, por ello, los investigadores se interesan cada vez más por las

nuevas publicaciones que se generan en este campo con el fin de mantenerse totalmente

informados hacia toma de decisiones.

En muchas ocasiones aunque los investigadores de estudios de asociación genética

estén convencidos de que las decisiones que tomaron se basaron en la mejor evidencia

disponible, puede surgir la duda de si últimamente se han publicado estudios que ponga

en cuestión esas decisiones. Es posible que el investigador lleve sin ponerse al día de las

nuevas publicaciones desde hace tiempo, y se dé cuenta de que necesita despejar sus

dudas mediante una síntesis concisa, actualizada y rigurosa sobre las decisiones

evidentes que tuviese que tomar, es decir, necesita una revisión sistemática.

Para la realización de las revisiones sistemáticas se deben de seguir una serie de

pautas que son de suma importancia, ya que si nos saltamos alguna de ellas es muy

posible que los resultados obtenidos no sean fiables. La mayoría de las revisiones

sistemáticas no suelen estar realizadas solamente por el investigador, también están

formadas por una serie de especialistas que se encargan de algunas de las pautas a

seguir en esta. Pero es posible que el investigador quiera los resultados en un corto

plazo de tiempo, y es por ello que quiera utilizar herramientas fáciles de manejar y

rápidas.

Uno de los puntos importantes de muchas revisiones sistemáticas es el meta-análisis.

Para realizar un meta-análisis en estudios de asociación genética, es importante tener

conocimientos estadísticos avanzados, y esto supone un gran calentamiento de cabeza

para los investigadores, ya que la mayoría tienen unas nociones básicas de estadística.

Por esta razón buscan un software en el que tan solo tengan que introducir los datos, y

este les devuelva todos los resultados de un meta-análisis de forma rápida, y sin

necesidad de tener muchos conocimientos de estadística ni del programa.

Pero no es fácil encontrar programas que realicen este tipo de meta-análisis, y mucho

menos que den todos los resultados de forma rápida. Esta es la razón de este trabajo,

realizar mediante el software estadístico R, una función que realice todos los pasos de

un meta-análisis en estudios de asociación genética, con tan solo unos conocimientos

muy básicos del programa. Para llevar a cabo esta función se tienen que desarrollar y

aplicar las técnicas de un meta-análisis en estudios de asociación. Para el desarrollo de

estas técnicas se han seguido las indicaciones que vienen en Takkinstian et al.

La primera técnica a realizar en este tipo de meta-análisis es estudiar el Equilibrio de

Hardy-Weinberg para ver si la población de cada uno de los estudios de la revisión

sistemática se encuentra en equilibrio genético. Este paso es importante ya que es lo que

le da al meta-análisis el grado de fiabilidad que necesita. El siguiente paso es detectar la

no heterogeneidad entre los estudios mediante el test de Cochran (Q test) que está

basado en el método de la inversa de la varianza, o mediante el índice 2I que describe el

porcentaje de variación total entre los estudios que es debido a la heterogeneidad, para

este índice además se ve cómo se calculan sus intervalos de confianza. Una forma

gráfica de ver la heterogeneidad va a ser mediante el diagrama de bosque, más bien

conocido como forest plot. Seguidamente se realizará un análisis de regresión logística

binaria mediante el método parcial, en ella se verá primero cómo se ajusta un modelo

logit mediante el procedimiento stepwise, a continuación, cuáles son los estimadores de

los parámetros del modelo, seguiremos con la inferencia en los resultados obtenidos

donde se va a estudiar la bondad de ajuste del modelo logit mediante el test de la chi-

cuadrado de razón de verosimilitudes, el contraste de Wald sobre los parámetros del

modelo, y los intervalos de confianza de cada uno de los estimadores del modelo. Por

último se van a interpretar los parámetros, se va a determinar el mejor modelo genético

y se va a realizar una agrupación de los resultados (opcional). Todas las técnicas

llevadas a cabo en este trabajo para la realización del meta-análisis, han sido

considerando un modelo de efectos fijos y la variable respuesta categórica binaria.

Se ha programado una función en R la cual hace todo el estudio completo de meta-

análisis con las técnicas aquí vistas, y se ha aplicado a datos reales.

Agradecimientos

Quisiera dedicar este apartado a agradecer la labor de todas aquellas personas que

han colaborado para hacer posible este trabajo fin de Máster. Gracias especialmente a

mis tutores Pedro Carmona Sáez y Yolanda Román Montoya, cuyo esfuerzo y

dedicación en el asesoramiento del trabajo ha sido fundamental para el desarrollo del

mismo. Finalmente quisiera agradecerle especialmente a mi familia y a mi novio el

apoyo que me han dado. Sin vuestra ayuda este trabajo no hubiera podido realizarse.

Índice: 1. Introducción ........................................................................................................... 11

2. Revisión sistemática y meta-análisis ..................................................................... 13

2.1. Etapas de una revisión sistemática .................................................................. 15

2.1.1. Definición de la pregunta clínica de interés: ........................................... 15

2.1.2. Localización y selección de los estudios relevantes en relación con la

pregunta de interés .................................................................................................. 16

2.1.2.1. Identificación de artículos potenciales .............................................. 17

2.1.2.2. Selección de artículos potenciales .................................................... 20

2.1.3. Extracción de datos de los estudios primarios ......................................... 20

2.1.4. Análisis y representación de los resultados (Meta-análisis) .................... 22

2.1.5. Interpretación de los resultados ............................................................... 22

3. Conceptos previos de genética ............................................................................... 23

3.1. Cromosomas y genes ...................................................................................... 24

3.2. Genotipo y fenotipo ........................................................................................ 25

3.3. Modelos genéticos .......................................................................................... 26

3.4. Polimorfismos de nucleótido simple (SNPs) .................................................. 28

4. Estudios de asociación genética ............................................................................. 29

5. Meta-análisis en estudios de asociación genética .................................................. 31

5.1. Ley de Hardy-Weinberg ................................................................................. 32

5.2. Heterogeneidad ............................................................................................... 35

5.3. Análisis de regresión ....................................................................................... 39

5.3.1. Ajuste del modelo logit ........................................................................... 42

5.3.2. Estimación directa de los parámetros del modelo ................................... 45

5.3.3. Inferencia en los resultados ...................................................................... 46

5.3.3.1. Contrastes de bondad de ajuste del modelo logit. ............................. 46

5.3.3.2. Contraste de Wald sobre los parámetros del modelo ........................ 48

5.3.3.3. Intervalos de confianza ..................................................................... 50

5.3.4. Interpretación de los parámetros .............................................................. 50

5.4. Determinación del mejor modelo genético ..................................................... 52

5.5. Agrupación de resultados ................................................................................ 54

6. Programa “meta_analysis” ..................................................................................... 54

7. Ejemplo de un meta-análisis para datos dicotómicos ............................................ 56

7.1. Equilibrio de HardyWeinberg. ........................................................................ 57

7.2. Estudio de la heterogeneidad .......................................................................... 57

7.3. Análisis de regresión logística ........................................................................ 60

7.4. Determinación del mejor modelo genético ..................................................... 61

7.5. Agrupación de resultados ................................................................................ 62

8. Conclusiones .......................................................................................................... 64

APÉNDICES ............................................................................................................. 65

Apéndice A: modelo de efectos fijos/aleatorio ...................................................... 65

Apéndice B: Libros de R ....................................................................................... 66

Libro HardyWeinberg ........................................................................................ 66

Libro ‘meta’ ....................................................................................................... 68

Función ‘meta’ ............................................................................................... 68

Función ‘forest.meta’ ..................................................................................... 70

Otros libros ........................................................................................................ 73

Apéndice C: Script del programa “meta_analysis” ............................................... 73

BIBLIOGRAFÍA: ...................................................................................................... 83

11

1. Introducción

Durante muchos años, los investigadores aplicaron su intuición y su experiencia para

contrarrestar el alto grado de incertidumbre respecto a la toma de decisiones. Pero a

partir de la década de los 90 se han producido numerosas publicaciones científicas, que

han hecho sobrepasar las posibilidades de mantenerse informados, para la toma de

decisiones. Esto ha hecho que en la actualidad se necesite contar con información

sistemática recolectada, que sea válida y útil a las necesidades del investigador frente.

Por ello se ha generado la necesidad de una nueva forma de investigación denominada

“investigación por revisión” o “revisión sistemática” (Ortiz, 1997).

Una revisión sistemática (RS) tiene como objetivo reunir toda la evidencia empírica

que cumple unos criterios de elegibilidad previamente establecidos, con el fin de

responder una pregunte específica de investigación. Utiliza métodos sistemáticos y

explícitos, que se eligen con el fin de minimizar sesgos, aportando así resultados más

fiables a partir de los cuales se pueden extraer conclusiones y tomar decisiones (Allen &

Clarke, 2007). Es por ello que las RS son consideradas como investigaciones

secundarias, ya que son una investigación sobre lo investigado. Muchas revisiones

sistemáticas contienen meta-análisis, que es la parte de la RS que se encarga del análisis

de los datos.

En ocasiones las revisiones sistemáticas son llamadas meta-análisis pero esto es un

error, ya que un meta-análisis es una técnica estadística que se encarga de combinar los

resultados de diversos estudios individuales para lograr sintetizar sus resultados y dar

una estimación global de ellos.

Los estudios de asociación molecular basados en la población son cada vez más

populares y las técnicas para realizar un meta-análisis pueden ser complicadas de llevar

a cabo o pueden ocuparles a los clínicos mucho tiempo, ya que la mayoría tiene unas

nociones básicas de estadística, es por ello que tendrán que pedir a bioestadísticos que

se encarguen del análisis de los datos. Otra opción sería trabajar con un software en el

que tan solo se introdujesen los datos y este devolviese todos los resultados de un meta-

12

análisis de estudios de asociación genética. Pero apenas si existen hoy en día un

programa o página en internet que tenga estas características.

Hay programas estadísticos como R, SPSS o STATA que realizan meta-análisis, pero

para poder trabajar con ellos, antes se tiene que estudiar un poco sobre estos programas,

y además la mayoría realizan meta-análisis de ensayos clínicos. Todo esto llevó a que se

pensase realizar una función en R que fuese fácil de manejar sin saber mucho sobre este

programa, en donde los investigadores pudieran obtener todos los resultados necesarios

de un meta-análisis de estudios de asociación molecular que ellos mismos hayan

seleccionado e introducido en dicho programa, desde el equilibrio de Hardy-Weimberg

hasta la determinación del mejor modelo genético. Se ha elegido R por tratarse de un

software libre, el cual “permite hacer análisis muy complejos a estadísticos sin que

conozcan en profundidad los sistemas de computación” (científico investigador de

Google Daryl Pregibon). Aunque empezar a utilizar R es más complejo que comenzar

a utilizar algunos programas manejados mediante menú, no es excesivamente difícil y

sin embargo tiene muchas ventajas sobre ellos. R también puede ser usado como

cualquier otro programa ya que tiene una interface gráfica (R Commander), pero tiene la

enorme ventaja de que nos permite saber cómo vamos realizando el trabajo, ya que es

necesario involucrarse con el código que genera los resultados. Esto permite tener

completo control sobre el procedimiento de análisis y tiene el beneficio asociado de

familiarizarnos mejor con los procedimientos estadísticos realizados.

A lo largo de este trabajo se desarrollará la implementación de dicha función. En

primer lugar se analizarán los conceptos de Revisión Sistemática y Meta-análisis. Se

presentarán también una serie de nociones sobre genética y estudios asociación

genética. A continuación se desarrollará la realización de un meta-análisis para estudios

de asociación genética de datos dicotómicos para el caso de un modelo de efectos fijos

con variable respuesta categórica binaria, y por último se verá un ejemplo de este tipo

de meta-análisis.

13

2. Revisión sistemática y meta-análisis

Se van a seguir las pautas de (Guaita, 2007) y (Gonzalez, Urrútia, & Alonso-Coello,

2011). A menudo en la práctica clínica se generan frecuentes dudas en la toma de

decisiones sobre una pregunta concreta que plantean los investigadores. La falta de

tiempo, la cantidad de estudios publicados, la falta de conocimientos básicos de

epidemiología y de estadística, han hecho que la Medicina Basada en Evidencia, como

estrategia metodológica, haya desarrollado aspectos prácticos para la búsqueda de la

evidencia y solución a las preguntas planteadas.

Cuando los clínicos o investigadores quieren conocer la respuesta acerca de una

pregunta concreta, por experiencia saben que no pueden sacarla de la lectura de un

artículo, ya que a menudo los hallazgos reportados por un autor son a veces

cuestionados y no aceptados por otros investigadores, o confirmados por repetidas

investigaciones. Pero pocas veces, los estudios de investigación, aún los más rigurosos,

es seguro que den respuestas definitivas a las preguntas que se platean, ya que en

muchos casos se ha demostrado que eran incorrectos por los sesgos producidos y en

otras ocasiones la selección de la muestra no era la adecuada. Por ello, para que un

investigador o clínico pueda llegar a concluir una respuesta definitiva y segura, va a

llevar a cabo una revisión sistemática. Las RS se consideran las fuentes más fiables para

informar de la toma de decisiones médicas, quizás es por ello por lo que se están

haciendo cada vez más populares.

Una revisión sistemática es un artículo de investigación, sobre una pregunta concreta,

que identifica estudios relevantes, valorando su calidad y sintetizando sus resultados

utilizando una metodología científica. Su singular valor y utilidad está en reunir un

número de estudios, realizados de manera independiente, a veces con resultados

opuestos y sintetizar sus resultados (Guaita, 2007). Pero no siempre es posible

presentar resumidamente los resultados de los estudios primarios. Cuando estos estudios

no se combinan estadísticamente, la revisión es conocida como RS cualitativa o

overview (Ortiz, 1997). Cuando se aplican unos métodos matemáticos y estadísticos

apropiados a los datos que hemos obtenido en una revisión, para clarificar la

14

información encontrada, obtenemos los meta-análisis, que también son denominados

como análisis cuantitativos.

Meta-análisis (MA) no es sinónimo de revisión sistemática como muchos creen, sino

una parte de la revisión, de hecho un meta-análisis no es siempre posible, pero una

revisión sistemática sí. Sin embargo, cuando se cumplen las condiciones para realizarlo,

el MA aporta información muy útil y manejable parar facilitar la comprensión acerca

del efecto de un tratamiento o intervención, tanto en general como en grupos específicos

de pacientes. Además, permite aumentar la precisión en la estimación del efecto

detectando efectos de magnitud moderada pero clínicamente importantes que podrían

haber pasado inadvertidos en los estudios primarios. Habitualmente, el MA combina

datos agregados procedentes de los estudios publicados, pero en ocasiones puede

combinar datos individualizados de los pacientes que han participado en varios estudios.

Es el llamado MA con datos individuales de pacientes (individual patient data meta-

analysis), considerado patrón de referencia de las RS. Es muy importante tener claros

los conceptos de Revisión Sistemática y meta-análisis en la literatura científica, ya que

algunos autores utilizan el término “meta-análisis” como sinónimo de “revisión

sistemática con tratamiento estadístico de los datos” y otros se refieren a las “revisiones

sistemáticas” como “meta-análisis sin tratamiento estadístico”. En este trabajo se va a

utilizar los términos tales y como son, es decir, el término “Revisión Sistemática” para

el proceso entero, y el de “meta-análisis” como la parte de la RS que se encarga del

análisis estadístico de los datos.

A diferencia de las revisiones narrativas, en las RS se emplean métodos sistemáticos

para la búsqueda de todos los estudios potencialmente relevantes junto con unos

criterios explícitos y reproducibles, fijados de antemano en la selección. Eso es lo que

hace que se les confiere el carácter científico a diferencia de las revisiones narrativas.

Los primeros meta-análisis fueron reportados en 1955, pero el término en sí fue

utilizado e impuesto por Glass en 1976 a través de la literatura psicológica y, ya en

1980, se encontraron libros de texto con este concepto (Ortiz, 1997).Este campo de

15

investigación se ha ido desarrollando con rapidez. En el plano internacional, el estímulo

para las revisiones sistemáticas ha venido de la mano de la Colaboración Cochrane.

Es necesario contar con un protocolo previo a la realización de una RS. Esto ayudará

a reflexionar y aplicar los métodos más adecuados que luego se aplicarán a la RS, y

además, evitará tomar malas decisiones a posteriori en función de los resultados.

2.1. Etapas de una revisión sistemática

Según (Guaita, 2007) y (Gonzalez, Urrútia, & Alonso-Coello, 2011) una Revisión

Sistemática sigue las siguientes etapas:

• Definición de la pregunta clínica de interés y los criterios de inclusión y

exclusión de los estudios.

• Localización y revisión de los estudios relevantes.

• Extracción de datos de los estudios primarios.

• Análisis y representación de los resultados.

• Interpretación de los resultados.

2.1.1. Definición de la pregunta clínica de interés:

El primer paso es formular bien la pregunta que se quiere interpretar, ya que el

corazón de toda revisión sistemática de alta calidad es la formulación clara de la

pregunta primaria. Una pregunta confusa conlleva a una respuesta confusa o ninguna

respuesta. Una pregunta poco específica puede servir poco de ayuda al clínico para

tomar una decisión en un paciente concreto. Una vez definida una pregunta clara es fácil

establecer los criterios de inclusión y exclusión de los estudios primarios.

Para que una pregunta esté bien formulada tiene que tener unos criterios de inclusión

y exclusión. Estos criterios se definirán en los siguientes términos:

- Población específica y el contexto: descripción de los sujetos que van a formar

parte del estudio y problema clínico que se investigará.

16

- Exposición de interés: podría ser un factor de riesgo, un factor pronóstico, una

intervención o tratamiento, o un test diagnóstico. En el caso de una intervención,

tratamiento o test diagnóstico, es habitual definir al mismo tiempo una

exposición control.

- Resultados medidos: por ejemplo, descripción del dolor, mortalidad total,

nuevas revascularizaciones, etc.

- Diseño: características de los estudios que se seleccionarán en el escrutinio.

En el protocolo del estudio se deben precisar las tareas que se seguirán en la RS. Se

necesitará clarificar y explicar los métodos que se van a llevar a cabo para reducir al

mínimo el sesgo y para asegurarse de que los resultados sean reproducibles.

Pero hay que tener cuidado, ya que unos criterios de inclusión excesivamente

específicos pueden llevar a limitar la aplicabilidad de los resultados, y a no tener sentido

clínico ni biológico.

2.1.2. Localización y selección de los estudios relevantes en relación con la

pregunta de interés

En (Gonzalez, Urrútia, & Alonso-Coello, 2011) las etapas para este punto constan de

los siguientes componentes:

a) Identificación de artículos potenciales

• Decidir sobre restricciones en relación con el idioma de publicación.

• Decidir sobre las fuentes de obtención de los estudios primarios.

• Obtención de los títulos y resúmenes de los potenciales estudios primarios.

b) Selección de artículos potenciales

• Aplicar los criterios de inclusión y exclusión a los títulos y resúmenes obtenidos.

• Obtención de los artículos potenciales a partir de los títulos y resúmenes

elegibles y aplicar los criterios de inclusión y exclusión.

• Evaluar la concordancia en la selección de los estudios.

17

2.1.2.1. Identificación de artículos potenciales

En una revisión sistemática son muy importantes los artículos primarios que se

seleccionan, ya que la presencia de errores en la extracción de datos puede invalidar los

resultados de una RS. Por ello también es muy importante seleccionar tantos estudios

como se puedan, con el fin de minimizar el error aleatorio y el sesgo. Omitir estudios

por la restricción que se imponga sobre el idioma de publicación o, por haber sido

publicados o no en una revista médica, hace que se puedan producir sesgos.

Poner restricciones sobre el idioma de los estudios, que en tal caso sería el inglés,

conlleva a que estudios que son fiables pero que están escritos en otro idioma se queden

fuera generando sesgos.

Por razones de fiabilidad parece más razonable incluir sólo estudios que estén

publicados en revistas médicas, ya que estos son más fiables por haber superado un

proceso de revisión, pero en muchas ocasiones hay artículos que no son publicados en

dichas revistas por haber dado resultados negativos, por lo que su exclusión puede

sesgar los resultados de la RS. Esto es el llamado sesgo de publicación, que da lugar a

que es más probable que las RS que excluyen estudios no publicados sobreestimen la

relación entre la exposición y el evento de interés.

Una vez que se conocen los criterios de inclusión de las dos cuestiones anteriores, la

pregunta planteada es, ¿dónde se buscan los estudios primarios?.

Existen varias estrategias:

• Bases de datos electrónicas: Medline, Embase, Central (conocido antiguamente

como Cochrane Controlled Trials Register).

• Bases de datos no indexadas: Amed, Cinahl, Biosis.

• Búsqueda manual en sumarios de revistas, actas y sumarios de reuniones

científicas y libros.

• Listas de referencia y citaciones: Science Citation Index y similares.

18

• Registro de estudios en curso.

• Contacto con compañías farmacéuticas u hospitales.

• Contacto con colegas expertos en el tema de interés.

Hoy en día la estrategia más utilizada es, evidentemente, las bases de datos

electrónicas. Sin embargo no es una tarea fácil, dado que, aunque hay solapamiento

entre las bases de datos, muchas revistas incluidas en una base de datos específica no se

consideran en otras.

La identificación de potenciales artículos elegibles se suele realizar, por operatividad,

identificando títulos y resúmenes. Sin embargo, cada base de datos tiene su estructura

particular y utiliza unos criterios de indexación y palabras clave más o menos

específicas. La ayuda de un documentalista experto en RS en esta fase es crucial.

Además, hay que tener en cuenta que la estrategia de búsqueda finalmente utilizada

tiene que aparecer en la publicación de la RS, con objeto de comprobar su

reproducibilidad.

La búsqueda de estudios exclusivamente en bases de datos electrónicas podría no ser

óptima según el tema de interés. Hay ocasiones en las que resulta conveniente incluir

también una estrategia complementaria con objeto de identificar estudios no publicados.

Llegados a este punto hay que tener en cuenta que esta fase es una de las más

laboriosas, ya que suele requerir la búsqueda manual en sumarios de revistas o actas de

congresos, contactos con expertos en el tema, con compañías farmacéuticas, hospitales,

etc. Puede comprenderse que todo esto conlleva una inversión importante en tiempo y

recursos económicos. Consciente de ello la colaboración de Cochrane ha impulsado una

iniciativa internacional para desarrollar un registro de ensayos clínicos controlados, hoy

en día es conocida como CENTRAL y antiguamente como Cochrane Controlled Trials

Register.

La colaboración Cochrane ha nacido, se ha desarrollado y crecido como respuesta a

este reto. Existen en la actualidad colaboradores desinteresados de muchos países y

especialistas que están realizando, y actualizando numerosas revisiones sistemáticas de

19

ensayos controlados y aleatorizados (ECA). Dichas revisiones se analizan de manera

exhaustiva y se seleccionan aquellas de calidad más relevante para extraer de ellas

conclusiones acerca de cómo estos resultados se pueden aplicar a los cuidados de la

salud. La colaboración de Cochrane también se encarga de preparar informes

estructurados cuya difusión pueda mejorar el ejercicio de la práctica clínica y planificar

una medicina preventiva más eficaz. Dichas revisiones están clasificadas por

especialidades. Cuando no existen ECA relevantes en un área concreta de interés, la

revisión se lleva a cabo con la evidencia más fiable que se pueda encontrar. Para evitar

esfuerzos innecesarios y duplicaciones, los revisores registran su trabajo en la

CENTRAL y a su vez son informados de si ya existe alguna revisión del tema concreto.

Estas revisiones son preparadas, puestas al día y difundidas mediante medios

electrónicos a través de la "Cochrane Library".

En Octubre de 2006 se encontraban registrados en La Base de Datos Cochrane de

Revisiones Sistemáticas (CDSR) 2.668 revisiones sistemáticas, y en The Cochrane

Central Register of Controlled Trials (CCTR), 47.7942 referencias bibliográficas.

La Colaboración Cochrane está presente en 15 países entre los que se encuentran

España, Australia, Brasil, China y África del Sur.

Se puede contactar con la página de colaboración Cochrane a través de Internet en

cada uno de los distintos países donde está presente, así como a través de su página Web

internacional http://www.updatesoftware.com/clibhome/clib.htm. Actualmente España

tiene un acuerdo con la colaboración de Cochrane y existe una clave de acceso gratuita

a todas sus bases de datos “La Cochrane Library Plus en español”

http://www.updatesoftware.com/clibplus/clibplus.htm.

La búsqueda en diversas bases de datos electrónicas hará que se tenga un número

elevado de referencias bibliográficas, que en muchas ocasiones estén duplicadas entre

las bases de datos. Por ello resultará útil utilizar en esta fase software para gestionar de

forma automática las citas bibliográficas. En este sentido podemos citar ProCite o

Reference Manager. ProCite es un programa de gestión bibliográfica, útil para crear,

20

mantener, organizar y dar forma a referencias bibliográficas o citas de artículos de

revista o libros, obtenidas de una o varias bases de datos y catálogos. Nos ayuda a

buscar, descargar, organizar y presentar esas referencias bibliográficas en el estilo

deseado (Thomson Reuters). Reference Manager es más comúnmente utilizado por

personas que quieren compartir una base de datos central de referencia y la necesidad de

tener múltiples usuarios que añadan y editen registros al mismo tiempo, y se puede

especificar si los usuarios pueden hacer cambios en las bases de datos (Thomson

Reuters).

2.1.2.2. Selección de artículos potenciales

Es a partir de los títulos y resúmenes identificados cuando se hace el primer cribado

de los artículos potenciales que se ya se han elegido con anterioridad. Para ello es

conveniente diseñar una hoja de selección de estudios que sea operativa incluyendo

criterios explícitos y comprensibles. Se comenzará el proceso de selección mediante los

títulos y resúmenes, pero en el caso de que haya dudas se revisará el artículo completo.

La selección de estudios es conveniente que la realicen dos revisores de forma

independiente, con la finalidad de aumentar la fiabilidad y la seguridad del proceso. El

grado de acuerdo de los revisores será estudiado con el estadístico kappa. En el caso de

que los dos revisores no se pongan de acuerdo con la inclusión o no de un artículo, se

nombrará a un tercer revisor senior que será el que tome la decisión de si incluir o no

ese artículo.

En este punto hay que dejar bien explicado qué artículos entran a formar parte de la

RS, y cuáles se quedan fuera incluyendo sus causas. Generalmente esto se suele

expresar mediante un diagrama de flujo.

2.1.3. Extracción de datos de los estudios primarios

21

Esta parte es muy importante ya que requiere la máxima fiabilidad de la información

que se recoge en cada estudio seleccionado, por lo que es de nuevo importante que la

extracción de los estudios se haga en duplicado.

Durante la fase de diseño del estudio, se consensua cuál será la información a extraer

de los estudios primarios. La hoja de extracción de datos suele incluir:

a) Información sobre los pacientes, intervención de interés, intervención control y

diseño de estudio.

b) Información sobre los resultados.

c) Información sobre la calidad metodológica del estudio.

El primer apartado corresponde a toda aquella información que puede ser relevante

por su potencial impacto en el resultado y su variación entre estudios. Las diferencias

que existan entre las características de los pacientes, por ejemplo la edad, ya que hay

enfermedades que se desarrollan de forma distinta a una edad joven que a una edad

adulta, podrían explicar que la magnitud del efecto de la intervención varía de un

estudio a otro. Es decir, podría explicar la heterogeneidad.

Lo que se quiere es que haya un equilibrio de exhaustividad de la información a

recoger, evitando, como no, el exceso de información innecesaria.

El punto (b) corresponde a la extracción de los resultados. El formato elegido

dependerá de cómo estén definidos los eventos de interés, como variable dicotómica o

como variable continua. En el primer caso unas veces será sencillo obtener el porcentaje

y el número de pacientes en los que sucedió el evento de interés. Otras veces los

resultados vendrán expresados en forma de alguna medida de asociación, como por

ejemplo, riesgo relativo, reducción del riesgo relativo, o razón de ventajas. Existen

varias plantillas para ello.

El punto (c) se refiere a la valoración de la calidad de los estudios. Una vez obtenidos

los artículos relevantes de la RS, se determina sistemáticamente la calidad de los

22

estudios. Este punto es muy importante, ya que es fundamental para minimizar los

sesgos.

Se desea por tanto, dar mayor énfasis a los estudios que sean “mejores” con el fin de

alcanzar conclusiones robustas y veraces. Para ello existen escalas de calidad que nos

permiten valorar de forma sencilla, la calidad de un trabajo, como por ejemplo la escala

de Jadad para el caso de ensayos clínicos, que puntúa en un rango de 0 a 5 puntos. Hay

muchas escalas para medir la calidad de los estudios que asignan a cada uno de ellos

distintas puntuaciones. A pesar de que este proceso puede complicarse todo lo que se

quiere, hay unos aspectos básicos que tiene que controlar a partir de la información de

los estudios, como son el diseño del estudio, la posibilidad de combinar los distintos

trabajos, controlar los sesgos y que el análisis estadístico de los estudios se haya

realizado correctamente, revisando el valor de odds ratios, riesgo relativo e intervalos

de confianza.

En este proceso, la recolección de forma ordenada de los datos, constituye una etapa

muy importante. Todos los datos que serán sometidos al análisis quedan registrados en

una base de datos junto con las características específicas del estudio del que proceden.

2.1.4. Análisis y representación de los resultados (Meta-análisis)

Este paso consiste en la combinación mediante métodos estadísticos de los resultados

de los estudios primarios para dar una estimación global de los mismos, es decir, Meta-

análisis.

La razón principal dada por Mulrow, para realizar este paso es “aumentar el poder y

la precisión a la hora de valorar los efectos de un tratamiento y los riesgos a su

exposición”.

Este paso se verá con más detalle en el apartado 5.

2.1.5. Interpretación de los resultados

23

Finalmente, la revisión sistemática concluye con la interpretación de los resultados.

Esto conlleva a una discusión del estudio entero realizado, comentando todo lo que se

ha hecho en el, incluso los estudios que habiendo sido seleccionados en principio,

posteriormente tuvieron que eliminarse del estudio por los sesgos que producían.

A pesar de que los hallazgos de una revisión sistemática sean consistentes y

convincentes, hay que discutir sobre los resultados obtenidos, siendo el investigador el

que tome la última decisión sobre las conclusiones obtenidas tras el estudio realizado.

3. Conceptos previos de genética

El ADN es el acido desoxirribonucleico responsable de contener toda la información

genética de un individuo o ser vivo, información que es única e irrepetible en cada ser

ya que la combinación de elementos se construye de manera única. Este ácido contiene,

además, los datos genéticos que serán hereditarios, por lo que su análisis y comprensión

resulta ser de gran interés para realizar cualquier tipo de investigación científica o

aventurar una hipótesis para ver sobre la identidad o sobre las características de un

individuo.

El ADN está formado por una doble cadena helicoidal (dos cadenas que se enrollan

una sobre la otra) de nucleótidos. Cada ácido está formado por 3 elementos, de los

cuales 2 siempre son comunes al resto. Estos dos grupos son el grupo fosfato (H3PO4)

y una pentosa como es, en nuestro caso, la desoxirribosa. Existen cuatro tipos distintos

de nucleótidos con las siguientes bases nitrogenadas: adenina (A), citosina (C), guanina

(G) y timina (T). Cada una de las cadenas está formada por miles de nucleótidos, y

cada nucleótido de una cadena está unido al de enfrente de la otra cadena. Las bases de

una cadena siempre están enfrentadas a las de la otra del siguiente modo: Adenina frente

timina y citosina frente guanina. Las uniones entre estas dos cadenas solo se mantienen

por los enlaces moleculares de puentes de hidrógeno que se establecen entre cada par de

bases.

24

El ADN se encuentra en el núcleo de la célula disperso mientras esta no se está

dividiendo, pero cuando la célula entra en división el ADN se organiza formando los

cromosomas. Gracias a la capacidad de replicación del ADN, este hace copias de si

mismo mientras se divide la célula donde está inmerso. Estas copias van a las células

hijas y así estas heredan todas las propiedades y características de la célula original.

3.1. Cromosomas y genes

Como se acaba de decir los cromosomas son estructuras formadas por ADN que se

crean en la división celular.

El ADN contenido en los cromosomas se agrupa en fracciones (locus) una a

continuación de la otra, cada una de ellas tiene la información necesaria para llevar a

cabo un determinado proceso y es conocida como gen, luego un gen es un segmento de

ADN que lleva información para un carácter, por ejemplo color de pelo. De esta manera

encontramos que un solo cromosoma está formado por muchos genes.

En la especie humana se tienen 22 cromosomas homólogos y un par de cromosomas

sexuales. Cada uno de los miembros de un par es heredado de uno de los progenitores.

Dado que nuestras células son diploides, hay dos posibles secuencias de ADN

heredadas independientemente para un locus determinado y un individuo, que son los

denominados alelos.

25

Figura I. Imagen de un cromosoma desglosado.

El conjunto de todos los genes constituye el genoma de un organismo, que también

es característico para cada especie. Los seres humanos disponemos de 35.000 genes.

Cada gen dispone de dos alelos para el mismo carácter, uno con la información de la

madre y otro con la información del padre. Un alelo resulta ser cada una de las formas

alternativas que presenta un gen, que ocupa la misma posición en cada par de

cromosomas homólogos, se diferencia en su secuencia y se puede manifestar en

modificaciones concretas de la función de ese gen.

Si denominamos los dos posibles alelos como “A” siendo este el dominante, puesto

que si está presente, este alelo siempre se expresará, y “a” recesivo, ya que solo se podrá

expresar cuando su otro alelo sea homólogo. En el caso de que los dos alelos de un gen

contengan la misma información genética (“AA” o “aa”), se va a decir que el individuo

es homocigoto para ese carácter, pero si contienen distinta información (“Aa” o “aA”)

para el mismo carácter se dirá que es heterocigoto.

3.2. Genotipo y fenotipo

De los genes dependen nuestras características como ya se comentado antes. Sin

embargo no actúan solos, sino que lo hacen en colaboración con los factores

26

ambientales. En consecuencia hay que diferenciar entre los caracteres heredados y su

manifestación, es decir, entre el genotipo y fenotipo.

• El genotipo es el conjunto complejo de genes heredados por un organismo.

• El fenotipo son todas las características observables de un organismo

(morfológicas, fisiológicas, etc), es decir, es el resultado de la interacción del

genotipo y el ambiente.

3.3. Modelos genéticos

El conocimiento que tenemos hoy en día sobre la genética es gracias al monje

austriaco Gregor Mendel. Su estudio se basó en la observación de plantas de guisante.

Inicialmente tomó dos líneas puras de guisantes verdes y guisantes amarillos. Al

cruzarlos obtuvo una generación que era uniforme en cuanto a su aspecto (fenotipo),

todos los descendientes eran amarillos, sin embargo, genéticamente no podían ser

iguales ya que había mezclado dos variedades puras. De ahí concluyó que los guisantes

amarillos se podrían expresar como AA, por ser este el carácter que siempre se

mostraba. Los verdes por tanto debían ser aa, puesto que sí se manifestaban, pero no en

presencia de un alelo dominante (A). La primera generación filial Aa, mostraría el color

amarillo por la dominancia pero contendría un alelo recesivo.

Figura II. Imagen de la primera Ley de Mendel

Tomando esta generación filial, esperó a que crecieran las nuevas plantas de

guisantes y las dejó que se autofecundasen de nuevo. Vio que las plantas obtenidas eran

27

tanto amarillas como verdes, aunque las amarillas estaban 3 veces más presentes en

proporción que las verdes. Por ello concluyó que los distintos alelos de la primera

generación (Aa) se habían separado y mezclado de forma aleatoria, dando lugar a un

75% de plantas amarillas y un 25% de verdes.

Imagen III. Imagen de la segunda Ley de Mendel

A partir de experimentos posteriores se vio además que esta separación y

apareamiento era completamente aleatorio, sin verse influido por otros genes.

Por ello, de la separación y mezcla de los alelos podrían ocurrir 4 eventos.

• Que se mezclasen dos alelos dominantes (modelo codominante): Por ejemplo, si

el gen A determina color de flores blancas y el gen B color de flores rojas, la

mezcla según la primera Ley de Mendel daría hijos heterocigoticos AB. Al ser

ambos dominantes, los dos se expresarían dándoles a las flores un color rosado

mezcla de la expresión del rojo y del blanco

• Que se uniese un alelo dominante con un recesivo (modelo dominante). Este es

el caso del primer experimento de Mendel. La generación primera tiene el

fenotipo propio del gen dominante (Aa).

• Que se uniesen dos alelos recesivos (modelo recesivo): Aquí, al estar los dos

alelos recesivos si tendrían oportunidad de expresarse (aa), cosa que en

presencia de un dominante no podría ser ya que quedarían suprimidos.

• Que el fenotipo variase según un cromosoma homocigótico o heterocigótico

(modelo overdominant). En este caso la heterocigosis supone una ventaja

añadida en la expresión de un gen frente a la homocigosis para el mismo

28

carácter. Por ejemplo, en pacientes con anemia falciforme, los individuos

homocigóticos (sean dominantes o recesivos) tienen menor esperanza de vida y

menos resistencia a la malaria, los heterocigoticos poseen una mayor esperanza

de vida y algo de resistencia a esta infección.

3.4. Polimorfismos de nucleótido simple (SNPs)

Un polimorfismo de nucleótido simple o SNP es una variación de un solo nucleótido

en el material genético. El conjunto de 23 cromosomas humanos denominado genoma,

está compuesto por 3000 millones de pares de bases. El cambio de una única base con

respecto a la secuencia estándar se llama SNP.

Figura IV. Imagen de un polimorfismo

Cuando el cuerpo humano produce nuevas células, generalmente no comete muchos

errores, pero en ocasiones, cuando un fragmento del genoma se copia para crear una

célula nueva, un par de bases cambia. Ésta es la menor alteración que puede sufrir la

secuencia de ADN de un individuo, originándose por el intercambio recíproco de los

nucleótidos: adenina, citosina, guanina y timina, lo cual sucede aproximadamente cada

100 a 1000 bases, en cantidad variable y distribución aleatoria a lo largo del genoma

humano (Wang, Siao, & Fran, 1998). Para que una de estas variaciones sea considerada

un SNP debe ocurrir en al menos el 1% de la población. Por otro lado, el 90% de la

diversidad fenotípica humana proviene de las variaciones heredadas en un solo SNP.

29

Los polimorfismos son la base de la evolución y los que se consolidan. Aunque

muchos SNPs no tienen efecto sobre la función de la célula, estos pueden estar silentes

o proporcionar ventajas a los individuos, aunque una minoría podría influir en la

predisposición a determinadas enfermedades, en la respuesta a bacterias, virus o toxinas

e incluso en la respuesta a diferentes drogas y tratamientos. La estabilidad de los SNPs a

lo largo de las generaciones los convierte en óptimos para hacer estudios de

poblaciones.

Por ejemplo, en el gen de la apolipoproteína E (ApoE) se han descrito varios

polimorfismos frecuentes que consisten en cambios de una única base. Uno de ellos,

denominado ApoE ε-4, resulta en un cambio en el aminoácido cisteína de la posición

112 por una arginina. Esta variante se asocia con la enfermedad de Alzheimer (Iniesta,

Guinóa, & Moreno, 2005).

Recordemos que cada tres bases se sintetiza un aminoácido, un grupo de

aminoácidos dará una proteína, que son la base estructural del ser humano. Hay tripletes

que codifican el fin del gen, si en estos, por ejemplo hay un polimorfismo, en vez de

traducirse como fin del gen, quedaría como otro aminoácido, produciéndose una

proteína anormal, la cual puede producir enfermedades.

4. Estudios de asociación genética

Los estudios de asociación genética buscan estudiar el genoma completo y ver la

asociación que hay entre los polimorfismos (SNPs) y las distintas enfermedades. Para

ello se pueden emplear dos estrategias para buscar la mutación asociada a la

enfermedad: desde la hipótesis o sin hipótesis previa. La estrategia desde la hipótesis

previa comienza con la formulación de la hipótesis de que un determinado gen puede

estar asociado con una determinada enfermedad, y trata de buscar esa asociación. La

estrategia sin hipótesis previa emplea métodos de "fuerza bruta" para escanear todo el

genoma y posteriormente comprobar si algunos genes muestran esa asociación. Los

estudios de asociación del genoma completo emplean generalmente la estrategia sin

30

hipótesis previa (Hunter, Altshuler, & Rader, 2008). Pero en el caso de todas las

estrategias, lo primero será tener evidencias de que al menos hay una fracción de la

enfermedad que está determinada genéticamente.

La base de los estudios de asociación genética es la misma que la de los estudios de

epidemiología de casos y controles. En el estudio de una enfermedad, se denominan

casos al grupo de individuos que presentan dicha enfermedad y controles a aquellos

individuos que no estando afectados por la enfermedad, participan en el análisis.

A partir de aquí se estudian los genomas de cada uno de los dos grupos y se

comparan entre sí para ver la variabilidad genética y la presencia de SNPs, y medir la

asociación entre la presencia de los mismos y la existencia o no de cierta enfermedad

sobre la que se esté estudiando. Esto se determina mediante un análisis estadístico, el

cual se realiza con ayuda de un software bioinformático, pudiendo aplicarse también

para diversas variaciones del enfoque anterior, como es el análisis de rasgos fenotípicos

cuantitativos, por ejemplo la altura (Purcell, Neale, Todd-Brown, Thomas, & Ferreira,

2007). Sin embargo, descubrir esta asociación no resulta tan sencilla ya que existen

sesgos y modificadores externos que alteran la validez de la pruebas.

Otro tipo de estudios se realizan a partir de los estudios de cohortes. En ellos se toma

una población y se realiza un seguimiento a lo largo del tiempo para ver si los

individuos que participan en el estudio desarrollan o no la enfermedad, y estudiar las

alteraciones que haya sufrido su genoma.

Finalmente se pueden realizar a partir de estudios de tríos. Estos estudios toman a un

padre y a un hijo que estén afectados por la enfermedad y se buscan alelos que se

hereden en más de un 50% de la descendencia. Así, se reduce la necesidad de controlar

ciertos factores poblaciones, volviéndose por tanto más sencillo el análisis estadístico.

La desventaja de este método es que puede resultar difícil encontrar progenitores

afectados por la enfermedad que no la hayan fallecido.

31

5. Meta-análisis en estudios de asociación genética

Un meta-análisis es una técnica estadística que se encarga de combinar los resultados

de diversos estudios individuales para lograr sintetizar sus resultados y dar una

estimación global de ellos. La realización de un meta-análisis presenta ciertas

limitaciones como se ha visto en el apartado 2. En ocasiones, los resultados pueden

estar distorsionados debido a posibles sesgos de selección y de publicación de los

estudios. Si no se lleva a cabo un buen proceso depurativo de los datos y se valoran

adecuadamente las consecuencias de estos huecos, el meta-análisis realizado puede ser

invalidado. Para la realización correcta de un meta-análisis se disponen de distintas

técnicas estadísticas que permiten evaluar la heterogeneidad de los estudios

seleccionados así como el grado de asociación entre el SNP y la enfermedad bajo

estudio.

En esta sección se expondrán las diferentes técnicas estadísticas para la realización

de un meta-análisis y sus interpretaciones, considerando un modelo de efectos fijos y

una variable respuesta categórica binaria, donde los datos vendrán recogidos en una

tabla de contingencia como la tabla I.

Tabla I. Tabla de contingencia 3 2J× ×

Estudios Enfermedad Genotipos Est.1 … Est. j … Est. J

Casos

1Y =

AA 111n …

1 1jn … 1 1Jn

Aa 211n …

2 1jn … 2 1Jn

aa 311n …

3 1jn … 3 1Jn

Controles

0Y =

AA 110n …

1 0jn … 1 0Jn

Aa 210n …

2 0jn … 2 0Jn

aa 310n …

3 0jn … 3 0Jn

En el Apéndice A se resumen las características principales de los modelos de

efectos fijos y efectos aleatorios.

32

5.1. Ley de Hardy-Weinberg

En muchos meta-análisis de estudios de asociación molecular no ha se introducido

hasta el momento la prueba de Hardy Weinberg, lo que hace que esos meta-análisis no

tengan un alto grado de fiabilidad. Esto posiblemente esté relacionado con la falta de

compresión de los conceptos genéticos de los epidemiólogos y bioestadísticos.

En un principio la Ley de Hardy-Wewinberg era conocida en el mundo angloparlante

como Ley de Hardy por el matemático inglés Godfrey Harold Hardy, hasta que en el

año 1943 el genetista Curt Stern señaló que ya había sido formulada independiente en

1908 por el físico y gineco-obstetra Wilhelm Weinberg.

En genética de poblaciones, el principio de Hardy-Weinberg establece que la

composición genética de una población se encuentre en equilibrio a menos que se

introduzcan influencias perturbadoras., en otras palabras, se consigue en una generación

de apareamiento al azar.

Este equilibrio genético ofrece una línea para medir el cambio entre generaciones, ya

que la herencia mendeliana, por si misma, no engendra cambio evolutivo. Es por ello,

que establece un papel importante en la genética de poblaciones, por varias razones: el

desequilibrio puede ser el resultado de un error de genotipificación, más típicamente la

confusión de los heterocigotos y homocigotos; las pruebas de HWE pueden ayudar a

detectar errores de genotipado. Por otro lado, el desequilibrio entre casos en estudios de

caso-control podría indicar asociación con la enfermedad.

Esta regla establece, bajo ciertas condiciones, que tras una generación de

apareamiento al azar, las frecuencias genotípicas de un locus (fracciones en las que se

agrupa el ADN contenido en los cromosomas) se pueden expresar en términos de sus

frecuencias alélicas en una población de individuos diploides y poliploides. En forma

más general, se establece que en ausencia de la mutación, la selección, la migración y

otras posibilidades, las frecuencias genotípicas en un locus autosómico de una

población grande, alcanzarán el equilibrio en una sola generación y seguirán estando en

33

las proporciones dadas. Luego el equilibrio de Hardy-Weinberg se alcanza en una

generación de apareamiento aleatorio. El caso al que nos vamos a enfrentar en este

trabajo es el caso diploide.

En el caso diploide tendremos un locus con dos alelos, a los cuales vamos a

denominar a uno con A y a otro con a, cuyas frecuencias van a ser ( 1)p y q p q+ =

respectivamente. Bajo esta condición, las frecuencias relativas de los genotipos AAf ,

Aaf y aaf , vendrán dadas por 2 2, 2p pq y q respectivamente.

El equilibrio de HW es fácilmente extensible a sistemas con múltiples alelos

1 2, ,..., kA A A , con frecuencias 1 2 ... kp p p+ + + , siendo sus frecuencias genotípicas 2ip

para los homocigotos y 2 i ip q para heterocigotos. Una fórmula alternativa para el caso

dialélico es elevar al cuadrado las frecuencias heterocigóticas:

2 4Aa AA aaf f f= .

El test clásico de la chi-cuadrado de bondad de ajuste, ha sido utilizado durante

décadas para estudiar el equilibrio de Hardy-Weinberg. Aunque hoy en día se están

utilizando procedimientos más exactos. La prueba de razón de verosimilitud también es

posible utilizarla para este estudio aunque no va a ser abordada en este trabajo.

El test de la chi-cuadrado es el test clásico para este estudio, y es el que se encuentra

por norma general en los libros de genética. Definimos AAn , Aan y aan (ver tabla I) las

frecuencias observadas de los genotipos para el grupo de controles, y AAe , Aae y aae sus

frecuencias esperadas respectivamente bajo el HWE.

Para calcular las frecuencias esperadas se multiplica el total de frecuencias

observadas de la fila y la columna perteneciente a la frecuencia genotípica que se quiere

obtener, y esto se divide por el total de la población, es decir, para A AAA

n ne

n= .

34

Tabla II . Frecuencias observadas y frecuencias relativas de los genotipos.

, ,( )i j i jO f ( )A p ( )a q Total

( )A p 2( )AAn p ( )Aan pq 2( pq)An p + ( )a q ( )Aan pq

2(q )aan 2(pq )an q+

Total 2( pq)An p + 2(pq )an q+ 2 2( 2pq q )n p + +

El estadístico de 2X viene dado por la siguiente expresión

2 222 ( ) ( )( ) Aa Aa aa aaAA AA

AA Aa aa

n e n en eX

e e e

− −−= + +

en la que se compran las frecuencias esperadas con las observadas.

Habrá equilibrio de Hardy -Weinberg cuando el estadístico sea menor que una 2χ

con un grado de libertad, a un nivel de significación de 0.05α = , ya que la hipótesis

nula dice que la población se mantiene en equilibrio de Hardy-Weinberg. Antes de

realizar cualquier estudio de asociación se debe comprobar si se cumple el principio de

equilibrio de Hardy-Weinberg en la muestra de controles (como representantes de la

población general) (Iniesta, Guinóa, & Moreno, 2005). En la muestra de casos es

posible que no se cumpla el equilibrio de Hardy-Weinberg; ello puede ser indicativo de

que el polimorfismo pueda estar asociado con la enfermedad.

Actualmente no existe un consenso en el que se diga si hay que dejar en un meta-

análisis los estudios que no están en equilibrio de Hardy-Weinberg.

En el estudio primario, en el caso de que se observara una desviación del equilibrio

se debería revisar el método de genotipificación, pues en ocasiones se producen sesgos

al interpretar los resultados por ser más fácil de detectar un genotipo que otro. Otras

posibilidades son que los individuos no sean independientes (p. ej., por consanguinidad)

o que se dé una selección de un alelo (p. ej., por estar asociado con la longevidad).

Tampoco se debe de dejar de tener en cuenta que si empleamos un nivel de

significación del 5%, por azar puede observarse falta de ajuste al nivel esperado, aunque

35

la condición de transmisión de alelos con independencia sea correcta en la población del

estudio.

Teóricamente si la razón por la que se produjese desequilibrio pudiese ser

identificada, podría ser posible realizar una corrección para llegar al equilibrio. Aunque

el desequilibrio de HW no necesariamente podría invalidar los resultados de un estudio

de asociación, la incapacidad para determinar la razón del desequilibrio requiere un

enfoque cauteloso a estos estudios (Takkinstian, McElduff, D'Este, & al, 2005).

5.2. Heterogeneidad

Uno de los aspectos más problemáticos de un meta-análisis es abordar la

heterogeneidad estadística. A partir de este momento va a ser simplemente denominada

como heterogeneidad en este estudio. Es importante ser capaz de cuantificar el grado de

heterogeneidad entre los estudios de un meta-análisis, ya que los problemas de

interpretación dependen de cómo de sustancial es la heterogeneidad y esto determina el

grado en que podría influir en las conclusiones de un meta-análisis (Higgins &

Thompson, 2002).

Una medida para determinar la heterogeneidad es mediante la estimación de la

varianza entre los estudios, a partir de la cual se obtiene el nivel de relación existente

entre los polimorfismos y el estado de la enfermedad para los distintos estudios en base

a los cocientes de ventajas (Odds Ratios). Para los resultados dicotómicos, los datos de

cada estudio se extraen como el número de sujetos con cada genotipo (AA, Aa y aa) en

los grupos de casos y controles, como se puede ver en la tabla I. Las Odds Ratio (OR )

van a definirse como 1 2,OR OR y 3OR para AAvs aa, Aa vs aa y AAvs Aa, aunque el

grado de heterogeneidad se cuantifica en la escala de las log-odds ratio (Takkinstian,

McElduff, D'Este, & al, 2005).

Una de las formas más comunes de indicar el grado de heterogeneidad es mediante la

prueba estadística denominada test de Cochran o Q test (Cochran, 1937). Este test de

36

heterogeneidad está basado en el método de la inversa de la varianza, y viene dado por

la siguiente ecuación:

( )2

1

ˆ ˆ ; 1,...,JJ

j jj

Q jω θ θ=

= − =∑

representando jω el peso del j-ésimo estudio, ˆjθ es el estimador del �ln jOR de cada

una de las J tablas parciales 2 2× para el genotipo y el estado del individuo en cada

estudio y θ̂ es el estimador del cociente de ventajas de los estudios agrupados.

Estos valores son obtenidos mediante las siguientes ecuaciones:

1

1

lnˆ ln

J

jjj

J

jj

OR

OR

ωθ

ω

=

=

= =∑

� 1 1 2 0

1 0 2 1

ˆ ln ln j jjj

j j

n nOR

n nθ

= =

�( )1

var lnj

jORω =

�( )1 1 1 0 2 1 2 0

1 1 1 1var ln j

j j j j

ORn n n n

= + + +

siendo 1 1jn y 1 0jn el número de individuos con el genotipo AA en el grupo de casos y

controles respectivamente y 2 1jn y 2 0jn para el genotipo Aa.

Se satisface la hipótesis nula de homogeneidad si el estadístico Q se distribuye como

una Chi-cuadrado con 1J − grados de libertad. Por norma general para estudiar la

heterogeneidad se toma como nivel de significación 0.10α = , para aminorar el

problema de que no se acepte la hipótesis nula de homogeneidad (Higgins, Thompson,

Deeks, & Altman, 2003).

Pero es conocido que cuando el meta-análisis incluye pocos estudios, la potencia

estadística de este test es muy baja, e inversamente se podría decir, que tiene una

potencia excesiva cuando hay muchos estudios, especialmente cuando estos estudios

37

tienen un tamaño grande. Es por ello que para estudiar la heterogeneidad se utilizan

otros estadísticos.

Se desean medidas que sean fácilmente interpretables tanto por estadísticos como por

no estadísticos, y que no dependan de la cantidad de estudios o el tipo de datos

resultantes. Unas medidas cuyos estadísticos permitan la cuantificación de la cantidad

de heterogeneidad que pueda explicarse por covariables a nivel de estudios, o

particularmente por estudios influyentes (Higgins & Thompson, Quantifying

heterogeneity in a meta-analysis, 2002).

Una medida desarrollada y muy utilizada para este tipo de estudios es el índice I�.

Este índice describe el porcentaje de variación total entre los estudios que es debido a la

heterogeneidad

( )2 1100

Q JI

Q

− − = ×

donde Q representa al test de Cochran antes comentado y 1J − sus grados de libertad.

Cuando los valores del índice 2I son negativos estos se igualan a cero, ya que los

valores de 2I tienen que estar entre el 0% y el 100%. El valor de 0% indica que no hay

nada de heterogeneidad observada entre los estudios, y cuanto más alto sea este valor

mayor será la heterogeneidad. Algunos autores han indicado arbitrariamente, los valores

de 2I de 25%, 50% y 75% como baja, moderada y alta heterogeneidad respectivamente.

La ventaja que tiene este índice es que puede ser calculado y comparado a través de

meta-análisis de diferentes tamaños, de diferentes tipos de estudios y usando diferentes

tipos de resultados (Higgins, Thompson, Deeks, & Altman, 2003). 2I también es usada

en la investigación de las causas y el tipo de heterogeneidad.

Otro parámetro que nos permite cuantificar la heterogeneidad es 2H . Este parámetro

describe el exceso relativo de Q sobre sus grados de libertad. La relación que existe

entre Q y sus grados de libertad, hace que haya ausencia de heterogeneidad cuando Q

38

es mucho mayor que su valor esperado, [ ] 1E Q J= − . Lo que indica que si 2 1H = no

existe heterogeneidad, y que esta es mayor cuanto mayor sea el valor de 2H

2

1

QH

k=

−.

Haciendo algunas operaciones elementales se puede comprobar que

22

2

1HI

H

−= .

Este parámetro nos va a permitir también calcular el intervalo de confianza de 2I .

Para ello hay que obtener el intervalo de confianza de 2H y una vez que se tenga hay

que operar en la fórmula anterior para obtener el intervalo de 2I a partir de la fórmula

anterior.

Mediante el intervalo clásico de Wald, el intervalo de 2H es

[ ]( )1 /2exp ln lnH z Hα σ−±

siendo 1 /2z α− el percentil ( )100 1 / 2 %α− de la distribución normal estándar y

[ ] ( ) ( )ln ln 11ln

2 2 2 3

Q JH si Q J

Q Qσ

− −= >

− −

o

[ ] ( ) ( )2

1 1ln 1

2 2 3 2H si Q J

J Jσ

= − ≤

− − .

Hay que tener presente que la falta de heterogeneidad estadística no se puede

considerar como evidencia de homogeneidad, ya que pudieran no detectarse diferencias

estadísticamente significativas incluso en meta-análisis con niveles moderados de

heterogeneidad.

39

Como se ha visto, existen varios métodos estadísticos para evaluar el grado de

heterogeneidad, que permiten valorar hasta qué punto los resultados que provienen de

diferentes estudios pueden ser resumidos en una única medida.

En general como se acaba de ver, todas las pruebas estadísticas diseñadas para

comprobar la existencia de heterogeneidad se basan en la hipótesis de que la

variabilidad entre estudios es nula.

Una forma sencilla de ver la heterogeneidad a simple vista es mediante un diagrama

de bosque, o más bien conocido como forest plot. Este se ve en detalle cuando se

describa la librería necesaria que lo muestra, en el Software R, que se encuentra en el

apéndice B.

5.3. Análisis de regresión

Una vez que se ha detectado la no heterogeneidad entre los estudios, se realiza un

análisis de regresión logística para detectar el efecto de la variable Genotipo.

Desde el punto de vista estadístico, un polimorfismo constituye una variable

categórica con varios genotipos posibles y se suele considerar como categoría de

referencia al grupo de individuos homocigotos para el alelo más frecuente. Para evaluar

la asociación de un polimorfismo con la enfermedad es necesario tener una tabla de

contingencia como la tabla I, y se hacen contrastes de asociación de razones de

verosimilitudes. Además se puede estudiar si el modelo resultante se ajusta globalmente

bien a los datos observados, y estudiar la magnitud de asociación entre los genotipos a

través de odds ratios (OR), para obtener por último el mejor modelo genético que se

ajusta a los datos.

Como muestra A.M.Aguilera (2006) el modelo de regresión logística (logit) tiene

como objetivo describir el efecto de una o varias variables explicativas (independientes

de naturaleza cuantitativa y/o cualitativa) sobre una variable respuesta (dependiente

binaria o con más de dos categorías). En el meta-análisis de datos dicotómicos la

40

variable respuesta es una variable categórica con dos niveles de clasificación, luego,

vamos a trabajar con un modelo de regresión logística binaria. La razón fundamental de

por qué se realiza un análisis de regresión logística en vez de una análisis de regresión

lineal, es por el mero hecho de que en el primero la variable respuesta es categórica

binaria o politómica, y en el segundo es una variable cuantitativa.

El modelo logit que se considera en este tipo de meta-análisis es un modelo con dos

variables explicativas categóricas, la variable Genotipo que la denotaremos con la letra

G con tres categorías { }, ,AA Aa aa denotadas por ( )1G AA , 2( )G Aa y ( )3G aa , y la

variable Estudio que la denotaremos con le letra E con tantas categorías como estudios

haya { }1 2, ,...,EJE E denotadas por ( )1E primer estudio, ( )2E segundoestudio,…,

( )JE estudio J . La variable respuesta Y es el estado de la enfermedad con dos

categorías{ },Caso Control , siendo Caso cuando la presenta y Control cuando no, y

dándole los valores 1Y = e 0Y = respectivamente.

El estudio de este modelo se puede realizar mediante un método parcial y un método

marginal. En este trabajo, y como se verá en el procedimiento utilizado en R, se ha

optado por el método parcial.

En el método parcial se elige una categoría de referencia en todas las variables del

diseño, a la cual se le va a asignar el valor 0. Se define una variable del diseño binaria

asociada a cada una de las restantes categorías, que toma el valor 1 para su categoría

asociada y el valor 0 para todas las demás. En el meta-análisis de estudios de asociación

genética se suele considerar como categoría de referencia al grupo de individuos

homocigotos para el alelo más frecuente (Iniesta, Guinóa, & Moreno, 2005), y para la

variable Estudios la que se prefiera, en este caso y como se verá en el ejemplo, se va a

dejar que R tome por defecto como categoría de referencia la primera, siendo esta la

primera en orden alfabético.

41

A pesar de que la categoría de referencia de la variable Genotipo es la que tiene

mayor número de frecuencias, para las siguientes explicaciones se ha tomado la primera

categoría.

Teniendo en cuenta el procedimiento que se acaba de exponer, la m-ésima variable

de diseño de la variable Genotipo va asociada con la categoría mG , definiéndose de la

siguiente manera:

( ) 12,3; 1,2,3

0G Gim m i

i mX X G G m i

i m

== = = ∀ = = ≠

realizándolo de la misma forma para la variable Estudios:

( ) 12,3,..., ; 1,2,...,J

0E Ejm m j

j mX X E E m J j

j m

== = = ∀ = = ≠

Esto significa que hay un total de ( )1I − parámetros de la variable Genotipo y

( )1J − parámetros de la variable Estudios.

Si la probabilidad de respuesta de 1Y = en cada combinación de niveles de las dos

variables cualitativas es

1/ ,i j ijP Y G G E E p = = = = ,

que se modeliza como

02 2

02 2

exp

1 exp

I JG G E Em im m jm

m mij I J

G G E Em im m jm

m m

X X

p

X X

β τ τ

β τ τ

= =

= =

+ + = + + +

∑ ∑

∑ ∑ ,

el modelo de regresión logística se construye en la siguiente forma tomando como

variables explicativas las ( )2I J+ − variables de diseño

1/0

2 21/

ln1

I Jij G G E E

ij m im m jmm mij

pL X X

pβ τ τ

= =

= = + + −

∑ ∑ ,

42

donde 1/

1/

ln1

ij

ij

p

p

es el resultado del i-ésimo genotipo en el j-ésimo estudio, los Gmτ son

parámetros de asociación parcial entre G e Y, representando la medida en que G explica

a Y. Lo efectos Emτ corresponden a la asociación parcial entre E e Y.

Con las definiciones antes expuestas el modelo de regresión logística se puede

expresar como:

11 0L β=

1 0 1,2,3Gi iL iβ τ= + =

1 0 1,2,...,JEj jL jβ τ= + =

de modo que su forma global es:

0 1,2,3; 1,2,...,G Eij i jL i j Jβ τ τ= + + = =

con 1 1 0G Eτ τ= = .

Cada uno de estos modelos sigue una distribución Chi-cuadrado con m grados de

libertad, y con un nivel de significación de 0.05α = , siendo m el número de parámetros

que tiene la variable que en ese momento entra a formar parte del modelo. Esto se ve en

el punto siguiente de cómo ajustar un modelo logit.

5.3.1. Ajuste del modelo logit

Ajustar un modelo logit consiste en seleccionar las variables que mejor explican a la

variable de respuesta binaria. Unos de los procedimientos para la inclusión o

eliminación de variables es el de selección paso a paso, más comúnmente conocido

como procedimiento stepwise tanto hacia delante (forward) como hacia atrás

(backward). Este procedimiento adopta el principio de parsimonia que consiste en

43

seleccionar el modelo que con menor número de parámetros se ajuste bien a los datos y

lleve a una interpretación sencilla en términos de cocientes de ventajas.

En este procedimiento se parte de un modelo inicial en el que sólo se encuentra el

término constante0β , y en cada paso que se haga, se ajustarán todos los modelos logit

que resultan de la inclusión en el modelo seleccionado en el proceso anterior de cada

una de las variables explicativas que no están en dicho modelo. Para llevarlo a cabo se

hacen contrastes condicionales de razón de verosimilitudes, que tienen en la hipótesis

nula el modelo seleccionado del proceso anterior y en la hipótesis alternativa el modelo

resultante de la inclusión de cada variable. De este modelo se seleccionaran aquellas

variables para las que este contraste es significativo (p-valor menor o igual que el nivel

de significación 1α fijado para la inclusión de variables), y se incluirá en el modelo la

variable que tenga menor p-valor de todas las variables que tienen p-valores menores o

iguales a 1α .

Por otro lado, mediante el procedimiento backward, se considerará en cada paso la

posibilidad de eliminar alguno de los parámetros del modelo seleccionado en el paso

anterior. Para evitar eliminar en un paso la variable que acaba de entrar en el anterior, se

fijará para la eliminación de la variable un nivel de significación 2α mayor que el nivel

de significación 1α fijado para la inclusión de las variables. Por lo tanto, en un primer

paso solo podría ser eliminada la constante del modelo pero por defecto suelen

considerarse siempre modelos con término constante, lo que hace que no pueda ser

eliminada. Para la eliminación de las variables se realizarán contrastes condicionales de

razón de verosimilitudes que tienen en la hipótesis nula el modelo que resulta de la

eliminación de cada una de las variables y en la hipótesis alternativa el modelo

seleccionado en el paso anterior. De este modo se considerarán para la eliminación

aquellas variables cuyo p-valor es mayor que 2α y se eliminará la asociada al máximo

de estos p-valores. La inclusión de las variables y la eliminación continúa hasta que

todos estos contrastes condicionales resulten significativos.

44

Adaptando esto a nuestros datos, se parte de modelo inicial 0β y se ajustará aquel

modelo logit que resulte de la inclusión de la variable G o de la variable E. Los

contrastes de razón de verosimilitudes para ver que variable entra primero son

0 0 0 0

1 0 1 02 2

: :

: :I J

G Em m

m m

H H

oH H

β β

β τ β τ= =

+ +

∑ ∑

Si un solo contraste da significativo, se incluye en el modelo la variable para la que

ese contraste a dado significativo. En el caso de que los dos contrastes den significativo,

en el modelo se va a incluir aquella variable del contraste que menor p-valor tenga, el

cual va a ser comparado con 1 0.05α = . Supongamos que la variable que entra a formar

parte del modelo es la variable Estudios.

Siguiendo con la selección del modelo, nos saltamos el paso backward ya que el

término constante está fijo y no puede ser eliminado. Entonces el siguiente paso es

realizar el contraste de RV para estudiar si la variable Genotipo entra a formar parte del

modelo que se ha obtenido en el contraste anterior

0 02

1 02 2

:

:

JEm

J IE Gm m

H

H

β τ

β τ τ

+ + +

∑ ∑

Si el contraste es significativo, entonces el modelo también va a estar formado por la

variable Genotipo.

Por último se realiza el paso backward para estudiar si la variable Estudios sale del

modelo, mediante este mismo contraste que se acaba de realizar.

45

Si el contraste es significativo, con un nivel de significación 2 10.1 0.05α α= > = ,

entonces la variable Estudios no sale del modelo, y por lo tanto se concluye que el

modelo de regresión logística que se obtiene es

0 1,2,3; 1,2,...,G Eij i jL i j Jβ τ τ= + + = = .

5.3.2. Estimación directa de los parámetros del modelo

En esta sección se va a explicar sin entrar en detalles la estimación de los parámetros

de los modelos logit. En el caso de que se quiera profundizar más sobre esto ir a

(A.M.Aguilera, 2006).

Para la estimación del modelo de regresión logística para las dos variables

explicativas categóricas G y E, mediante máxima verosimilitud, los datos se van a

recoger en una tabla de contingencia 2I J× × como la de la Tabla I, asumiendo que las

frecuencias observadas { }ijn de la tabla marginal G-E están fijas y que las frecuencias

observadas para la respuesta 1Y = , denotadas por 1ijn son binomiales independientes

( )1 1/,ij ijB n p , verificando que

1/ , 0 / , 1i j i jP Y G G E E P Y G G E E = = = + = = = = .

En cada combinación de niveles (ij) de G y E, la probabilidad condicional de hacer la

respuesta 1Y = en lugar de 0Y = , es decir, la ventaja a favor de 1Y = , es

1/ 1

1/ 1

ˆ ˆ

ˆ ˆ1 1ij ij

ij ij

p m

p m=

− −

siendo 1 1 1ˆ ˆij ij ijm n p= × , donde 1ˆ ijm es el estimador MV de las frecuencias esperadas 1ijm

bajo el modelo.

46

Se puede demostrar que las ecuaciones de verosimilitud tienen solución exacta. Lo

estimadores MV son de la forma

1/0

1/

ˆˆ lnˆ1ij

ij

p

= −

1/

1/

1/1

1/1

ˆ

ˆ1ˆ ln 2,3; 1,...,

ˆ

ˆ1

ij

ijGi

j

j

p

pi j J

p

p

τ

− = ∀ = = −

1/

1/

1/ 1

1/ 1

ˆ

ˆ1ˆ ln 2,..., ; 1,2,3

ˆˆ1

ij

ijEj

i

i

p

pj J i

p

p

τ

− = ∀ = = −

5.3.3. Inferencia en los resultados

Una vez estimados lo parámetros del modelo de regresión logística nos proponemos

hacer inferencia para extrapolar los resultados muestrales de la población. Esto se va a

dividir en tres pasos:

1. Contrastes de bondad de ajuste del modelo logit.

2. Contrastes sobre los parámetros del modelo.

3. Intervalos de confianza.

5.3.3.1. Contrastes de bondad de ajuste del modelo logit.

Dependiendo del número de observaciones { }ijn en cada combinación de valores de

las variables explicativas se va a disponer de distintos estadísticos. En este trabajo se ha

estudiado la bondad de ajuste mediante el test chi-cuadrado de razón de verosimilitudes.

47

En líneas futuras de investigación se procederá también con el test de Hosmer y

Lemeshow que se usa cuando las { }ijn no son suficientemente grandes.

El test global de bondad de ajuste de este modelo de regresión logística contrasta la

hipótesis nula (el modelo se ajusta globalmente bien a los datos observados)

02 2

0

02 2

exp:

1 exp

I JG G E Em im m jm

m mij I J

G G E Em im m jm

m m

X X

H p

X X

β τ τ

β τ τ

= =

= =

+ + = + + +

∑ ∑

∑ ∑

frente a la hipótesis alternativa:

02 2

1

02 2

exp:

1 exp

I JG G E Em im m jm

m mij I J

G G E Em im m jm

m m

X X

H p

X X

β τ τ

β τ τ

= =

= =

+ + ≠ + + +

∑ ∑

∑ ∑ .

El estadístico de Wilks de razón de verosimilitudes, también conocido como test chi-

cuadrado de razón de verosimilitudes, para el contraste de bondad de ajuste de un

modelo log-lineal viene dado por:

( ) ( )2 ˆ2 2 lnˆ

ii

i i

nG L m L n n

m

= − − =

Donde ( )ˆL m es el máximo de la log-verosimilitud bajo la suposición de que el

modelo se verifica y ( )L n es el máximo de la log-verosimilitud bajo el modelo no

saturado.

Dado que hay ( ) ( )1 1 1 1I J I J+ − + − = + − parámetros independientes y 2I J+ −

parámetros de asociación tipo tau independientes, el modelo es no saturado, dado que

tiene tantos parámetros independientes como observaciones binomiales independientes.

48

Bajo la hipótesis nula de que el modelo de regresión logística se verifique, el

estadístico 2G tiene distribución asintótica chi-cuadrado, cuyos grados de libertad son

los grados de libertad residuales del modelo, ( ) ( )( )1 1 1IJ I J I J− + − = − − .

Una vez obtenido el valor del estadístico 2G , se fija el nivel de significación

0.05α = y se rechaza el modelo considerado cuando 2 2;dfG αχ≥ , siendo 2

;df αχ el cuantil

( )1 α− de la distribución chi-cuadrado con grados de libertad df, los del modelo. En

caso contrario, se concluye que el modelo se ajusta bien a los datos.

5.3.3.2. Contraste de Wald sobre los parámetros del modelo

(Tan solo para este punto se va a cambiar la notación de los parámetros del modelo a

rβ , siendo r el número de parámetros que se tienen, para una mejor interpretación).

El contraste de Wald está basado en la normalidad asintótica de los estimadores de

máxima verosimilitud.

La distribución asintótica de rβ es ( )( )2 ˆˆ,r rN β σ β , y su estimación máxima

verosímil es ( )2

ˆ

ˆˆr r

r

β βσ β

− la cual sigue una distribución ( )0,1N .

Se contrasta la igualdad a cero de cada uno de los parámetros del modelo

0

1

: 01,2,3

: 0r

r

Hr

H

ββ

=∀ = ≠

El estadístico de contraste de Wald es

( )2ˆ

ˆˆr

r

σ β=

49

que bajo la hipótesis nula tiene distribución chi-cuadrado asintótica con un grado de

libertad, por ser el cuadrado de una normal estándar.

Se rechazará la hipótesis nula al nivel de significación 0.05α = cuando se verifique

que 21;W αχ≥ siendo 2

1;αχ el cuantil (1 )α− de una 21χ . En caso contrario, hay

independencia entre el parámetro estimado y el modelo.

Programas como R o SPSS toman como estadístico el parámetro estandarizado en

lugar de su cuadrado. En este caso el estadístico de contraste es (z-value)

( )ˆ

ˆˆr

r

σ β=

que bajo la hipótesis nula tiene distribución normal estándar ( )0,1N .

Por lo tanto se rechazará la hipótesis nula al nivel de significación 0.05α = cuando

se verifique que /2Z zα≥ . Siendo /2zα el cuantil de orden ( )1 / 2α− de la N(0,1).

Para contrastar los parámetros del modelo, a parte del test de Wald, hay otros

contrastes como el de razón de verosimilitudes o el test Score.

El test de razón de verosimilitudes es más potente que el test de Wald cuando se trata

de seleccionar las variables que entran a formar parte del modelo, pero en este punto ese

no es nuestro fin.

El test Score presenta la ventaja de que reduce los cálculos con respecto al test de

Wald y al test de razón de vesosimilitudes. El problema que presenta es que su uso está

muy limitado, ya que la mayoría de los paquetes estadísticos no lo proporcionan. Es

SPSS el único paquete que utiliza este contraste, pero es para seleccionar las variables

que entren en el modelo.

Equivalentemente, el contraste de los parámetros también se puede estudiar a partir

de los intervalos de confianza de las exponenciales de los parámetros, como se ve en el

siguiente punto.

50

5.3.3.3. Intervalos de confianza

Se van a estudiar los intervalos de confianza aproximados basados en la distribución

normal asintótica de los estimadores MV.

Recordando del punto anterior que la distribución asintótica de rβ es ( )( )2 ˆˆ,r rN β σ β ,

se tiene que

( )/2 /22

ˆ1

ˆˆr r

r

P z zα αβ β ασ β

− − ≤ ≤ = − ,

de donde se obtiene el siguiente intervalo de confianza aproximado para rβ al nivel

( )1 α− :

( )2/2

ˆ ˆˆr rzαβ σ β± .

5.3.4. Interpretación de los parámetros

La exponencial de 0β es la ventaja de respuesta 1Y = para un individuo que

pertenece a las categorías de referencia de ambas variables 1 0G = y 1 0E = .

La exponencial de Giτ es de la forma:

1/

1/1/

1/1

1/1

1exp 2,3; 1,...,

1

ij

ijG Gi i E

j

j

p

pi j J

p

p

τ θ−

= = ∀ = =

donde 1/Gi Eθ representa el cociente de ventajas de respuesta 1Y = u odds ratio (OR) de

la categoría iG respecto a la categoría de referencia1G , controlando fija la categoría jE

de E.

Estos cocientes de ventajas tienen la siguiente interpretación:

51

� 1/ 1/ 1/11Gi E ij jsii p pθ = = . Padecer cierta enfermedad es independiente de {iG vs

1G }.

� 1/ 1/ 1/11Gi E ij jsii p pθ > > . En este caso la ventaja a favor de padecer cierta

enfermedad es aproximadamente 1/Gi Eθ veces mayor para iG que para 1G , sea

cual sea el estudio.

� 1/ 1/ 1/11Gi E ij jsii p pθ < < . En este caso la ventaja a favor de padecer cierta

enfermedad es aproximadamente 1/1/ Gi Eθ veces mayor para 1G que para iG , sea

cual sea el estudio.

Como en el caso de la heterogeneidad, estos cocientes de ventajas van a ser más

conocidos como 1OR para AA vs aa equivalente a 31/G

Eθ , 2OR para aa versus Aa

equivalente a 23/G

Eθ y 3OR para AA vs Aa equivalente a 21/G

Eθ , pero hay que tener

cuidado con no confundirlos con los otros de la heterogeneidad, ya que no son los

mismos, si recordamos, en el estudio de la heterogeneidad el estimador del cociente de

ventajas de los estudios agrupados era �ˆ lnORθ = .

Si nos fijamos con todo lo explicado anteriormente, tan solo tenemos dos cocientes

de ventajas y se quieren tres. Para esto se fija como referencia que 3 1 2/OR OR OR= , y

despejando se tendrá el valor de 2OR ( 23/G

Eθ ).

El inconveniente de esto es que se puede obtener el valor de las sOR pero sus

intervalos de confianza no. Entonces para poder obtener los intervalos de confianza

habría que volver a hacer todo el proceso de ajuste del modelo de regresión logística,

pero en este caso fijando como categoría de referencia de la variable Genotipo la

perteneciente a aa, que es 3G .

De la misma manera se tiene para Ejτ

52

1/

1/1 /

1/ 1

1/ 1

1exp 2,..., ; 1,2,3

1

ij

ijE Ej j G

i

i

p

pj J i

p

p

τ θ−

= = ∀ = =

donde 1 /Ej Gθ representa el cociente de ventajas de respuesta 1Y = u odds ratio (OR) de

la categoría jE respecto a la categoría de referencia 1E controlando fija la categoríaiG

de G. En este caso no será necesario representar los valores de las ORs, ya que estas no

nos van a hacer falta para el meta-análisis de estudios de asociación genética.

Si observamos, los cocientes de ventajas anteriores no dependen de la variable que se

controla, de modo que la asociación entre cada variable respuesta y la variable

explicativa es la misma en todos los niveles de la otra variable explicativa. Esta

propiedad es conocida como ausencia de interacción entre las dos variables explicativas.

Para la obtención de los intervalos de confianza de estos cocientes de ventajas tan

solo tendremos que calcular las exponenciales de los intervalos de confianza de los

parámetros del modelo

( )( )2/2

ˆ ˆˆexp r rzαβ σ β± .

Este paso es otra forma de calcular los valores de las ORs a partir del modelo de

regresión logística. Como se verá en el ejemplo, los valores de las ORs obtenidos

mediante este procedimiento, es el mismo que los valores de las ORs de los estudios

agrupados que se calcularon en el contraste de heterogeneidad.

5.4. Determinación del mejor modelo genético

Con los valores de las ORs obtenidas en el modelo de regresión logística, se va a

determinar el mejor modelo genético. Asumiendo que el alelo de riesgo es A se van a

tener los siguientes modelos para las siguientes comparaciones:

53

(a) 1 3 21 1OR OR y OR= ≠ = . El modelo sugerido es recesivo.

(b) 1 2 31 1OR OR y OR= ≠ = . El modelo sugerido es dominante.

(c) 2 13

11 1OR y OR

OR= ≠ = . El modelo sugerido es overdominant.

(d) ( )1 2 1 3 1 2 1 31 1 1 1OR OR y OR OR oOR OR y OR OR> > > > < < < < . El

modelo sugerido es codominante.

La elección del modelo genético a menudo no es justificada, pero a menos que

existan fuertes indicaciones biológicas, se sugiere que este modelo que nos ha salido es

el que se debe usar.

En el caso en el que no está clara la elección del modelo de trabajo, es una buena

oportunidad para que los datos dicten el modelo.

La heterogeneidad y la elección del modelo, dependen en parte de las frecuencias

observadas de cada grupo de genotipos que a la vez dependen de las frecuencias de los

alelos. Si las frecuencias observadas en los determinados grupos de genotipos son

pequeñas, esto disminuirá el poder de detectar un modelo particular. Por ello el modelo

estadístico debe ser revisado.

También observamos que la formulación para el modelo codominante cubre tanto los

efectos aditivos como los efectos genéticos multiplicativos. Además los tres grupos de

genotipos deben ser preservados y no podemos cambiarlos.

En el caso de que no se cumpla ninguna de las cuatro opciones anteriores para

decidir cuál es el mejor modelo genético, se puede concluir que hay un efecto genético

sin ser capaz de especificar qué modelo genético es responsable (Takkinstian,

McElduff, D'Este, & al, 2005).

54

5.5. Agrupación de resultados

Antes de seguir con la lectura de este punto decir que esta parte es opcional.

Una vez que ha sido identificado el modelo genético, si se desea, se puede dar un

paso más allá en el modelo mediante la puesta en común del modelo genético indicado

en el paso anterior. La ventaja que va a tener este paso, es que va expresar los resultados

en términos del efecto del genotipo en vez del efecto de los alelos. Expresar los

resultados como efectos de los genotipos es más relevante a nivel clínico y se puede

llevar a cabo en la práctica actual de la epidemiología moderna. Es decir en este paso se

agrupan por ejemplo el gen AA con Aa, y se compara con aa, (AA + Aa vs aa).

Sin embargo a pesar de que los estudios que se han utilizado en el meta-análisis para

el modelo final eran homogéneos, hay que hacer otra comprobación nueva de la

heterogeneidad. Esto es porque se han combinado los grupos, y esto puede llevar a la

heterogeneidad de los estudios por el hecho del aumento del tamaño de la muestra de

cada estudio combinado, que conlleva a un aumento de la potencia para detectar dicha

heterogeneidad. Ahora por lo tanto, se va a estimar el efecto de los genes agrupados.

6. Programa “meta_analysis”

El programa “meta_analysis”, es un programa escrito en R que permite realizar un

meta-análisis completo en estudios de asociación genética, considerando un modelo de

efectos fijos y la variable respuesta categórica binaria. En este programa no se ha

introducido el contraste de bondad de ajuste, por no haber visto el test de Hosmer y

Lemeshow, por lo que se incluirá en líneas futuras de investigación.

Este programa devuelve los resultados del meta-análisis en formato .pdf y .txt, y nos

indica cual es la elección del mejor modelo genético, mostrando también los gráficos de

bosque (“forest plot”). Además, da la opción de fijar como categoría de referencia

55

alguna de las dos categorías de homocigotos de la variable Genotipo para el análisis de

regresión.

El programa se ejecuta con la orden

_ (table,F)meta analysis

siendo “table” la tabla de contingencia de las variables Genotipos y Estudios, y de la

variable explicada Enfermedad (tabla I), visualizada en R con el siguiente formato

donde en la primera columna se muestran los nombres de los estudios primarios, la

segunda, tercera y cuarta columna pertenecen al grupo de casos de cada uno de los

genotipos, y las tres últimas columnas pertenecen al grupo de controles. Las columnas

de la variable Genotipo vienen escritas en este formato para que no surjan problemas

con funciones que se utilizarán para el desarrollo de “meta_analysis”.

F es la orden que indica el genotipo homocigótico que se haya fijado para el análisis de

regresión. En el caso de que no se indique nada, y se deje F, el programa fijará el grupo

de individuos homocigóticos para el alelo más frecuente. La categoría de Genotipo que

se indique se pondrá entre comillas, por ejemplo “AA”.

En el apéndice C se muestra el script del programa. Este programa siempre

comprobará al principio si los valores introducidos son válidos para poder llevar a cabo

todo el análisis deseado.

56

7. Ejemplo de un meta-análisis para datos dicotómicos

Los distintos métodos del meta-análisis se han aplicado al estudio que hizo (Sharma,

1998) sobre la asociación entre el polimorfismo I/D del gen ACE y el accidente cerebro

vascular. Para ello hizo una revisión sistemática, quedándose al final con cinco estudios.

Este gen radica en el cromosoma humano 17q con dos alelos, insertado en I, el cual

codifica un extra de 250∼ pares de bases de ADN, y suprimida en D, que carece de

esta secuencia de ADN extra. Las frecuencias genotípicas del polimorfismo del gen

ACE frente a los casos del accidente cerebro vascular y los controles, son mostradas en

la Tabla (IV).

En la tabla (III) se muestran los resultados obtenidos de los estudios que seleccionó

Sharma P., donde en la primera columna van los nombres de los estudios, en las tres

siguientes los genotipos ACE: DD, DI, II, donde se encontró información sobre el

accidente cerebro vascular representada con 1Y = , y las tres últimas formadas por los

genotipos ACE donde no se halló tal enfermedad, representado como 0Y = .

Tabla (III). Datos del estudio de asociación entre el polimorfismo I/D del gen ACE

y el accidente cerebro vascular

Y=1 Y=0 Estudios DD DI II Total DD DI II Total

1 33 47 20 100 17 36 20 73 2 127 271 90 488 41 105 42 188 3 36 47 18 101 30 71 36 137 4 54 37 10 101 43 49 17 109 5 34 63 41 138 8 55 41 104

La tabla de datos es introducida en la función meta_analysis mediante la orden

“table”, y se indica qué categoría de la variable Genotipo va a ser tomada como

referencia, en este hemos dejado que el programa la fije. Los resultados obtenidos son

los siguientes.

57

7.1. Equilibrio de HardyWeinberg.

Viendo los resultados obtenidos en la tabla de HWE, los estudios están en equilibrio

de Hardy Weinberg por ser todos los valores del estadístico chi-cuadrado menores que

el valor de la chi-cuadrado con un grado de libertad (3.841) o equivalentemente los p-

valores mayores que el nivel de significación 0.05α = . Luego todos los estudios están

en equilibrio de Hardy Weinberg.

7.2. Estudio de la heterogeneidad

En la tabla se muestran los valores del estadístico Q junto a sus grados de libertad y

su p-valor, para cada una de las odds ratio, 1OR , 2OR y 3OR siendo estas los cocientes

de ventajas del accidente cerebro vascular para los genotipos DD vs II , DI vs II y

DD vs DI respectivamente. Además del índice 2I y la raíz cuadrada del índice 2H .

58

El valor del estadístico de contraste Q para el test de hipótesis global de la

heterogeneidad para 1OR , 2OR y 3OR es 4.619 (df=4), 0.15 (df=4) y 5.781 (df=4)

respectivamente. A cada uno de estos valores de Q le corresponden un p-valor, los

cuales son 0.329, 0.997 y 0.216, por lo que se concluye que al nivel de significación de

0.10α = no hay heterogeneidad entre los estudios para cada una de las odds ratio.

Los valores del índice 2I para 1OR , 2OR y 3OR son 13.39%, 0% y 30.81%

respectivamente. 13.39% indica que hay una pequeña variabilidad entre los estudios que

no puede ser explicada por casualidad para 1OR , 0% indica que no hay nada de

variabilidad entre los estudios para la 2OR , y 30.81% indica que aunque la

heterogeneidad entre los estudios es significativamente moderada esta tiene muy poco

efecto sobre 3OR .

El valor del índice 2H para cada una de las odds ratio son 1.15, 1 y 1.44, lo cual se

sacan las mismas conclusiones que se sacaron para 2I . Para 1OR la heterogeneidad que

existe entre estudios es muy pequeña, para 2OR no existe heterogeneidad entre estudios,

y para 3OR aunque haya una mayor variabilidad entre los estudios esto no afecta al

genotipo DD vs DI .

Si visualizamos los gráficos de bosque para cada una de las distintas comparaciones

entre genotipos, se obtienen las mismas conclusiones:

59

Como se describe en el apéndice B, los valores de las odds ratios junto a sus

intervalos de confianza al 95% son mostrados para cada uno de los distintos estudios.

Sus valores estimados están representados con un cuadrado de color rojo, y los límites

de confianza son los extremos de cada línea horizontal. El tamaño del cuadrado indica

la muestra utilizada y, viendo cualquiera de los tres gráficos, se percibe como el estudio

2 es el que tiene mayor número de muestra.

Muestra también los pesos para cada uno de los estudios teniendo en cuenta un

modelo de efectos fijos. Cuanto mayor sea el tamaño muestral del estudio, mayor será el

peso.

60

Estos gráficos además muestran los valores de las ORs de los estudios agrupados,

junto a sus intervalos de confianza. Estas ORs están representadas por un rombo azul

que se muestra a su izquierda, dependiendo la expansión del rombo de los intervalos de

confianza de cada una de las odds ratio.

El primer gráfico perteneciente al genotipo DD vs II muestra el valor de 1OR y su

intervalo de confianza. Al no ser el intervalo de confianza muy grande este rombo no se

expande demasiado, sin embargo para 2OR como el intervalo de confianza es mayor, el

rombo se expande más, cortando además por el 1 como muestra el IC. El hecho de que

entre el valor 1 en el intervalo de confianza se representará cuando se vaya a determinar

el modelo genético. De todas formas, viendo ya estos rombos, nos podemos hacer una

idea de que el modelo que saldrá será un modelo recesivo.

También se muestran el estadístico Q junto a sus grados de libertad y su p-valor, y el

índice 2I .

7.3. Análisis de regresión logística

Para realizar el análisis de regresión hemos fijado como categoría de referencia de la

variable Genotipo la primera, ( )1G DD , por ser el grupo homocigoto que tiene más

frecuencias en sus alelos. En el caso de que no se fije ninguna categoría, el programa

fija por defecto aquella cuyo grupo de individuos homocigotos tiene el alelo más

frecuente.

Este paso se realiza para ver el efecto de los distintos genotipos sobre el accidente

cerebro vascular.

61

Para ver si la variable que realmente nos interesa que entre a formar parte del

modelo, es decir la variable Genotipo, ha entrado, el programa nos muestra el valor del

estadístico chi-cuadrado del contraste de razón de verosimilitudes del procedimiento

stepwise. Su valor es 2 21.429χ = con 2df = y 0p valor− = , luego el contraste de

razón de verosimilitudes es significativo y por lo tanto la variable Genotipo entra a

formar parte del modelo. Dicho de otro modo, la accidente cerebro vascular está

relacionado con los distintos genotipos.

A pesar de que la variable Estudios se tiene que tener en cuenta a la hora de realizar

el análisis de regresión, no se va a prestar atención a si esta entra a formar parte del

modelo o no, ya que los efectos que tenga esta sobre la variable respuesta no son de

interés.

7.4. Determinación del mejor modelo genético

Para determinar cuál es el mejor modelo genético, el programa muestra los valores

de las odds ratios que se han obtenido del análisis de regresión logística, así como sus

intervalos de confianza, y sugiere un modelo genético.

Las estimaciones de 1OR , 2OR y 3OR son 1/0.498=2.008 (IC al 95% de (1.47;

2.74)), 1.246 (IC al 95% de (0.953; 1.627)) y 1/0.62=1.61 (IC al 95% de (1.24; 2.09)).

62

De estos intervalos de confianza se puede inferir que a un 95% de confianza todos

los parámetros son significativamente distintos de cero por no contener el valor 1 dentro

del intervalo, excepto el parámetro perteneciente a 2OR , para el cual sí se encuentra el

valor 1 en su intervalo de confianza, como se podía observar en el gráfico forest plot a

través del rombo. Luego el modelo sugerido es el recesivo.

Interpretación de las odds ratios:

� 1OR=1/0.498= 2.008; esto significa que la ventaja a favor de que dé un

accidente cerebro vascular es 2.008 veces mayor para las personas que tienen el

genotipo {DD} que para las que tienen el genotipo {II}.

� 2OR ; como se acaba de comentar, este valor tiene en su intervalo de confianza

el valor 1, por lo que el parámetro perteneciente a esta odds ratio es igual a cero,

y por lo tanto el accidente cerebro vascular es independiente de {DI vs II}.

� 3OR =1/0.62= 1.61; esto significa que la ventaja a favor de que dé un accidente

cerebro vascular es 1.61 veces mayor para las personas que tienen el genotipo

{DD} que para las que tienen el genotipo {DI}.

7.5. Agrupación de resultados

El modelo recesivo que se ha obtenido tiene que ser comparado con el genotipo DD.

Los resultados solo son mostrados en el gráfico de bosque siguiente

63

El p-valor del estadístico Q vale 0.1692 luego no hay evidencias de heterogeneidad a

pesar de que esté muy cerca de ella.

El valor estimado de la odds ratio es 1.69 (IC al 95% de (1.32; 2.16)). Si se

interpreta este resultado se dirá, que la ventaja a favor de que se produzca un accidente

cerebro vascular es 1.69 veces mayor en las personas que tienen el genotipo {DD} que

las personas que tienen los genotipos {DI} o {II}. Recordar que la variable de

referencia que se fija en estos gráficos es la que va en la columna de los eventos, en este

caso {DD}.

Conclusiones: Se ha estudiado la asociación que tiene el polimorfismo I/D del gen

ACE y el accidente cerebro vascular. Para ello primero se realizó el estudio de

equilibrio de Hardy Weinberg para ver si todos los estudios incluidos en el meta-análisis

estaban en equilibrio y se vio que sí. A continuación se estudió la heterogeneidad entre

los estudios para cada una de las comparaciones de los distintos genotipos, y para las

tres comparaciones salió que no había heterogeneidad entre los estudios. El siguiente

paso fue realizar un análisis de regresión logística para ver si la presencia del accidente

cerebro vascular estaba relacionado con los genotipos {DD}, {DI} y {II}, y se demostró

que sí, mediante el estadístico chi-cuadrado del contraste de razón de verosimilitudes

del procedimiento stepwise del ajuste del modelo. Seguidamente se determinó cuál era

el mejor modelo genético que definía los datos y se obtuvo un modelo recesivo. Y por

último se comparó los genotipos del modelo recesivo {DI/II} con el genotipo {DD}, y

se obtuvo que las personas que tenían el genotipo {DD} tienen una probabilidad mayor

de tener un accidente cerebro vascular que las que tienen los genotipos {DI} o {II}.

64

8. Conclusiones

Para llevar a cabo un perfecto meta-análisis, los primeros pasos de una revisión

sistemática son cruciales. Los estudios seleccionados tienen que estar bajo los criterios

de inclusión y exclusión que se expongan, y deben ser seleccionados los artículos más

potenciales. Una de las mejores bases de datos para buscar estudios primarios es la

conocida como CENTRAL, y para gestionar de forma automática las citas

bibliográficas los software más utilizados son ProCite y Reference Manager. Una vez

que se tienen los estudios seleccionados, se extraen los datos de estos y se pasa al

análisis y representación de los resultados (Meta-análisis).

En Meta-análisis de estudios de asociación genética es recomendable introducir la

prueba de Equilibrio de Hardy-Weinberg para darle fiabilidad al meta-análisis. Se ha

visto que para el estudio de la heterogeneidad es más recomendable utilizar el índice 2I

, ya que el Q test tiene la desventaja de que cuando se incluyen pocos estudios su

potencia estadística es muy baja. El análisis de regresión que se realiza es un análisis de

regresión logística en vez de lineal, por ser la variable respuesta categórica binaria. En

el ajuste del modelo logit se ha seguido el procedimiento stepwise. Para la estimación de

los parámetros se ha optado por el método de máxima verosimilitud, dejando para

estudios futuros otros como el de MV iterativa con Newton-Raphson. Para contrastar la

bondad de ajuste se ha usado el test de chi-cuadrado de razón de verosimilitud, pero este

test tiene la desventaja de que cuando el número de observaciones ijn no son

suficientemente grandes, esta distribución no se puede asumir como buena para realizar

este estudio, y habrá que recurrir al test de Hosmer y Lemeshow, el cual se desarrollará

en líneas futuras de investigación. Para el contraste sobre los parámetros del modelo el

test de Wald es potente y además lo proporciona R, hay otros tests como el de Score que

reduce los cálculos con respecto al test de Wald pero este no aparece en muchos

paquetes estadísticos, y además cuando aparece es para la introducción de las variables

en el modelo.

65

En líneas futuras de investigación se seguirán estudiando distintos métodos para

realizar un meta-análisis en estudios de asociación genética con variable respuesta

categórica, y también se hará para cuando la variable respuesta sea cuantitativa.

APÉNDICES

Apéndice A: modelo de efectos fijos/aleatorio

En un modelo de efectos fijos se asume que existe un único efecto en la población y

la variabilidad de los resultados entre los distintos estudios no es tenida en cuenta. Por

ello, los únicos determinantes de su peso en el meta-análisis van a ser el tamaño del

estudio y su propia varianza (variabilidad intra-estudio). Por el contrario, el modelo de

efectos aleatorios, tiene en cuenta la posible heterogeneidad al considerar que los

efectos de la exposición/intervención en la población son diversos y, que los estudios

incluidos en la revisión son sólo una muestra aleatoria de todos los posibles efectos.

Así, la ponderación de los estudios bajo este tipo de modelos considera no sólo su

propia varianza (variabilidad intra-estudio), sino también la que pueda existir entre los

estudios (variabilidad entre-estudios).

Al comparar ambos modelos, en general se puede decir que:

� Los modelos de efectos aleatorios deben utilizarse siempre que se determine la

no homogeneidad entre los estudios mediante el análisis de heterogeneidad, y no

puedan identificarse claramente las causas, lo que suele ser habitual,

especialmente en estudios epidemiológicos.

� Los resultados bajo la suposición de un modelo de efectos aleatorios tienden a

ser más conservadores que los obtenidos asumiendo el modelo de efectos fijos,

lo que da lugar a intervalos de confianza mayores para el efecto combinado.

66

� Una limitación de los modelos de efectos aleatorios es que se asume que los

estudios incluidos son representativos de una población hipotética de estudios, y

que la heterogeneidad entre los estudios puede ser representada por una sola

varianza. Otra desventaja es que conceden un peso excesivo a los estudios con

pequeño tamaño muestral.

Se concluye que, en el modelo de efectos fijos la generalización se limita a la

población de estudios de características similares a los incluidos en el meta-análisis. En

el modelo de efectos aleatorios, por el contrario, los resultados pueden generalizarse a

una población mayor de posibles resultados.

Apéndice B: Libros de R

Para la realización del trabajo aquí presentado, básicamente se ha recurrido a dos

libros de R: HardyWeinberg y meta, que pasamos a describir a continuación.

Libro HardyWeinberg

( )library HardyWeinberg

El libro de HardyWeinberg ofrece las herramientas necesarias para la exploración de

datos de genética dialélica. Ofrece todos los test clásicos para el estudio del equilibrio

de HardyWeinberg, funciones para calcular su potencia y para la simulación de datos

bajo equilibrio y desequilibrio.

Entre otras muchas funciones se encuentra la función HWChisq, con la que se va a

trabajar.

Antes de cargar este libro es necesario cargar otros tres más requeridos para la

correcta ejecución de los análisis:

67

( )library Rcpp

( )library lattice

( )library mice

La función HWChisq realiza el clásico test de equilibrio de Hardy-Weinberg con o

sin corrección por continuidad, y viene dada como

( ), 0.5, 0.05, HWChisq X cc alpha verbose FALSE= = =

Sus argumentos son los siguientes:

X Vector que contiene las frecuencias genotípicas (AA, Aa, aa).

cc Parámetro de corrección por continuidad, que por defecto es 0.5.

alpha Nivel de significación, por defecto es 0.05.

verbose Si verbose=1 entonces nos mostrará los resultados, si es igual a 0 no nos mostrará nada.

Devuelve una lista de valores con las siguientes componentes:

chisq Valor del estadístico chi-cuadrado. Devuelve NA si se registra monomorfismo en vez de polimorfismo.

pval p-valor del estadístico chi-cuadrado del equilibrio de Hardy.Weinberg.

D Desviación media de HWE.

P Frecuencia alélica de A.

68

Esta función se va a aplicar de forma individual a cada uno de los estudios para ver si

estos están en equilibrio.

Libro ‘meta’

( )library meta

El libro meta de R se encarga de realizar un análisis estadístico del meta-análisis.

Tiene varias funciones de métodos estándar, de uso fácil, para el estudio del meta-

análisis.

Las funciones con las que se trabaja para crear la función final de meta-análisis son

‘metabin’ y ‘forest.meta’.

Función ‘meta’

Calcula los efectos fijos y aleatorios estimados (razón de riesgo, odds ratio,

diferencia de riego o la diferencia del arcoseno) para un estudio de meta-análisis de

datos binarios. El método de Mantel-Haenszel, el de la inversa de la varianza o el de

Peto están disponibles dentro de esta función. Vine dada por:

( )( )( )

. , . , . , . , , , ,

, . , " ",. $ ,

! . , " ", " " ,

"

( )

( ,

(metabin event e n e event c n c studlab data NULL subset NULL

data NULL method ifelse tau common Inverse settings method

sm ifelse is na charmatch method c Peto peto nomatch NA

OR

= == =

= =

", . $ , . . $ . ,

. . $ . , . ,

.

)

). $ . ,

settings smbin comb fixed settings comb fixed

comb random settings comb random comb random

print CMH settings print CMH

==

= …

Sus argumentos son las siguientes:

event.e Número de eventos en el grupo experimental.

69

n.e Número de total de observaciones en el grupo experimental.

event.c Número de eventos en el grupo control

n.c Número de total de observaciones en el grupo control

studlab Es un vector opcional con los niveles del estudio.

subset Es un vector opcional que especifica un subconjunto de estudios

para ser utilizado. data Es opcional. Se pone la matriz de datos inicial que contiene la

información del estudio.

method Es una cadena de caracteres en la que se indica qué método es usado en el estudio. Los métodos que ofrece son: “Inverse”, “MH” o “Peto”.

sm Es una cadena de caracteres en la que se indica la medida de resumen (“RR”, “OR”, “RD” o “ASD”).

comb.fixed Carácter lógico que indica si se debe realizar un estudio de efectos fijos.

comb.random Carácter lógico que indica si se debe realizar un estudio de efectos aleatorios.

print.cmh Carácter lógico en el que se indica si los resultado del test de Cochran-Mantel-Haenszel deben ser mostrados.

Esta función devuelve una lista de valores con las siguientes componentes:

El primer objeto que devuelve es una tabla que contiene una primera columna con el

valor de la medida de resumen utilizada (“RR”, “OR”, “RD” o “ASD”) para cada uno

de los estudios, una segunda columna en la que se muestra los intervalos de confianza

de la medida elegida, y una tercera y cuarta columna con los pesos de los modelos de

efectos fijos y/o aleatorios.

Debajo de esto se muestra el valor conjunto de la medida resumen, junto a sus

intervalos de confianza, el valor de z y el p-valor.

70

Por último se muestran las medidas de los estadísticos e índices que estudian la

heterogeneidad, mostrándose además para el estadístico Q de Cochran sus grados de

libertad y su p-valor.

Función ‘forest.meta’

Con esta función es dibujado un gráfico de bosque, y viene dada por:

( ),...forest x

Sus argumentos son:

x Un objeto de la clase meta

text.fixed Cadena de caracteres utilizado en el gráfico para etiquetar la estimación de los efectos fijos, que se encuentra agrupada.

pooled.totals Indica si el número total de observaciones debe mostrarse en la figura.

pooled.events Indica si el número total de eventos debe ser mostrado en la

figura.

x.lab Etiqueta para nombrar el eje de la x.

leftcols Un vector de columnas específicas en el que aparecen los estudios, los eventos y los números totales de observaciones del objeto de clase meta, es mostrado en el lado izquierdo de la figura.

leftlabs Un vector que especifica el nombre de las columnas de la tabla de los eventos y de las observaciones, así como de los estudios.

rightcols Vector que especifica las columnas que van a ser mostradas en el lado derecho del gráfico.

rightlabs Vector que le da nombre a las columnas que se muestran a la derecha del gráfico.

lab.e Etiqueta que se le da a la tabla del grupo experimental.

lab.c Etiqueta que se le da a la tabla del grupo control.

71

hetlab Etiqueta que se le da a los resultados de las medidas de heterogeneidad

addspace Valor lógico que indica si se imprime un espacio adicional (es decir, una fila en blanco), por encima y por debajo de los resultados del estudio.

col.square Se define el color de los símbolos (cuadrados) de cada estudio que muestran el tamaño de la muestra y su valor de OR.

col.diamond Se define el color de los símbolos (rombos) que indican el valor de la OR total.

fs.xlab Es el tamaño del texto en el eje de la x del gráfico.

ff.lab Es el tipo de fuente del texto del eje de la x de gráfico.

La representación gráfica de los resultados de la heterogeneidad en un meta-análisis

contribuye a una fácil y rápida interpretación. Para ello se construye una gráfica en la

que en el eje de abscisas se representa la medida de efecto considerada (odds ratio,

riesgo relativo, etc.) y a lo largo del eje de coordenadas se sitúan los diferentes estudios,

generalmente ordenados por el año de publicación o cualquier otro criterio de

ordenación. Para cada estudio y para la estimación global del efecto, se representa su

estimación puntual y también el intervalo de confianza que le corresponde, asumiendo

un modelo de efectos fijos y/o efectos aleatorios. En nuestro trabajo la categoría de

referencia que se fijaba para la variable Genotipo es la que se mostraba en las columnas

de los eventos. Un ejemplo de este gráfico es el que se muestra en la Imagen [III].

72

Imagen III . Gráfico de bosque para el estudio de la heterogeneidad.

En el diagrama de bosque se muestran las ORs e intervalos de confianza de los

distintos estudios. El valor estimado de las ORs se representa mediante un cuadrado, y

los límites de confianza son los extremos de cada línea horizontal. El tamaño del

cuadrado indica la muestra utilizada: cuanto más grande es el cuadrado más

representativo es el estudio y, por tanto, más fiables sus conclusiones.

W es el peso o ponderación que corresponde a cada estudio en la obtención de la OR

de cada estudio. Su valor depende del método de agregación utilizado, de los tamaños

de muestra y del número de eventos de cada estudio. La OR conjunta para el estudio de

la heterogeneidad, se representa mediante un rombo en la parte inferior, siendo los

extremos del rombo los límites de confianza correspondientes.

También se muestran las medidas conjuntas de heterogeneidad, como la Q de

Cochran, el índice 2I , el valor

2H u otra que no se ha explicado en esta sección que es

2τ . En este gráfico de ejemplo no se muestra la Q de Cochran, pero no es problema

porque si se verá más adelante con el ejemplo del estudio de Meta-análisis.

El gráfico permite, por lo tanto, apreciar los resultados y conclusiones de cada uno de

los estudios individuales y el resultado conjunto para el estudio de la heterogeneidad.

73

Otros libros

Otros libros importantes y que se han utilizado en el análisis expuesto son las

librerías ‘grid’, ’gridExtra’ necesarias para crear las tablas con los resultados del meta-

análisis, que serán mostradas mediante pdf al investigador.

Apéndice C: Script del programa “meta_analysis”

meta_analysis<-function(table,F) {

if(ncol(D)>6) { stop("There are more columns than genotypes by cases and controls.\n") }

if(is.numeric(D[,1])== FALSE | is.numeric(D[,2])== FALSE | is.numeric(D[,3])== FALSE | is.numeric(D[,4])== FALSE | is.numeric(D[,5])== FALSE | is.numeric(D[,6])== FALSE )

{ stop(" There are a value not numeric in some column of cases or controls .\n") }

for(i in 1:nrow(D)) { if (abs(D[,1][i]-trunc(D[,1][i]))>0 | abs(D[,2][i]-trunc(D[,2][i]))>0 | abs(D[,3][i]- trunc(D[,3][i]))>0 | abs(D[,4][i]-trunc(D[,4][i]))>0 | abs(D[,5][i]-trunc(D[,5][i]))>0 | abs(D[,6][i]-trunc(D[,6][i]))>0)

{ stop(" The observed frequencies have to be values positives entire.\n") }}

#### Libraries ####

library(Rcpp) library(lattice) library(mice) library(HardyWeinberg) library(grid) library(gridExtra) library(meta)

## The data are passed to array because the next function HWChisq works with a

74

vector of three elements L = nrow(D) X = vector("numeric",length=L) U = as.matrix(D) estudios <- c(t(U)[c(1:6) , ]) X = array ( estudios , c(3,2,L) , dimnames = list(c("AA","AB","BB") , c("Case","Control") , c(rownames(D)))) # The names of genotypes are changed to work better in the next step

### HWE ### # HardyWeinberg is a method used to remove the genotypes frequencies from #allelics frequencies. # If p-value is less than the required significance level, then we say the null # hypothesis is rejected at the given level of significance. # Test of HWE is made only with controls. # To work with Hardy Weinberg it is necessary to load the library Hardy Weinberg. # The function used to calculate Chi-square from Hardy-Weinberg is HWChisq, # which works with a vector of three elements (genotypes). Xi = vector("list",length=L) HW.test = vector("list") for(i in 1:L)

{ Xi[[i]] = X[,2,i] HW.test[[i]] = HWChisq(Xi[[i]] , verbose = FALSE)#The continuity correction parameter is by default 0.05 }

df <- data.frame( t(matrix(unlist(HW.test) , nrow=5 , dimnames = list(c("Chisq" , "pval" , "D" , "p" , "f") , c(rownames(D)))))) HWE <- cbind( D , df[ , c(-3 , -4 , -5 )]) ### STUDY OF HETEROGENEITY AND THE BETTER GENETIC MODEL###

# Heterogeneity is going to study with the metabin function from 'meta' package. # We're going to considerer fixed effects. The pooled ORs are calculated by the # inverse variance method. # The investigator has that set a category of genotype variable, if the investigator # hasn't set a category then the category to be set is which has higher the sum of its # frequencies. meta1 <- metabin (event.e = D[,1], n.e = (D[,1] + D[,3] ), event.c = D[,4], n.c =

75

(D[,4] + D[,6] ), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE ) meta2 <- metabin (event.e = D[,2], n.e = (D[,2] + D[,3] ), event.c = D[,5], n.c = (D[,5] + D[,6] ), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE ) meta3 <- metabin (event.e = D[,1], n.e = (D[,1] + D[,2] ), event.c = D[,4], n.c = (D[,4] + D[,5] ), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE ) # We're going to make a data.frame with the Q statistic followed of the p-value and # the degrees of freedom. Heterogeneity <- data.frame (matrix (c (meta1$Q, meta2$Q, meta3$Q, meta1$df.Q, meta2$df.Q, meta3$df.Q, 1-pchisq (meta1$Q, meta1$df.Q ), 1-pchisq (meta2$Q, meta2$df.Q ), 1-pchisq (meta3$Q, meta3$df.Q ), meta1$I2 * 100, meta2$I2 * 100, meta3$I2 * 100, meta1$H, meta2$H, meta3$H ), 3, 5, dimnames = list (c (paste ("OR1 =", names(D)[1], "vs", names(D)[3] ), paste("OR2 =", names(D)[2], "vs", names(D)[3] ), paste("OR3 =", names(D)[1] , "vs", names(D)[2] ) ), c("Q", "df", "p-value", "I2", "H" ) ) ) )

#### FOREST.PLOT #### # Forest.plot by meta1, meta2 and meta3. pdf(file = paste (c("1.Forest.plot." ), names(D)[1], c("vs"), names(D)[3], c(".pdf") ), width=12, height=30 ) forest.plot.meta1 <- forest.meta (meta1, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste (names(D)[1], "vs.", names(D)[3] ), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c" ), leftlabs = c("Studies", names(D)[1], paste (names(D)[3], "+", names(D)[1] ), names(D)[1], paste (names(D)[3], "+", names(D)[1] ) ), rightcols = c("effect", "ci", "w.fixed" ), rightlabs = c("OR", "95%-CI", "W(fixed)" ), lab.e = "Experimental", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace = TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off() pdf(file = paste (c("2.Forest.plot."), names(D)[2], c("vs"), names(D)[3], c(".pdf") ), width = 12, height = 30 )

76

forest.plot.meta2 <- forest.meta (meta2, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste (names(D)[2], "vs.", names(D)[3] ), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c"), leftlabs = c("Studies", names(D)[2], paste (names(D)[3], "+", names(D)[2] ), names(D)[2], paste (names(D)[3], "+", names(D)[2] ) ), rightcols = c("effect", "ci", "w.fixed"), rightlabs = c("OR", "95%-CI", "W(fixed)" ), lab.e = "Experimental", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace = TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off() pdf(file = paste (c("3.Forest.plot."), names(D)[1], c("vs"), names(D)[2], c(".pdf")), width = 12, height = 30 ) forest.plot.meta3 <- forest.meta (meta3, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste (names(D)[1], "vs.", names(D)[2] ), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c"), leftlabs = c("Studies", names(D)[1], paste (names(D)[2], "+", names(D)[1] ), names(D)[1], paste (names(D)[2], "+", names(D)[1] ) ), rightcols = c("effect", "ci", "w.fixed" ), rightlabs = c("OR", "95%-CI", "W(fixed)" ), lab.e = "Experimental", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace= TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off()

#### REGRESION ANALYSIS### # With a category fixed we're going to make a data.frame with a genotipes column, # others with the studies, the Cases and Controls. # With the function relevel is fixed the category, and it is created a new column in # the data.frame. # To compare the categories no fixed, we're going to fix the category has higher the # sum of its frequencies, and we return to make a regression analysis, but only is # necessary the comparacion about this two categories. # It is necessary to make a logit regression analysis with the sentence glm. # We have chosen stepwise selection. G1 <- rep("G1", times = nrow(D) ) G2 <- rep("G2", times = nrow(D) ) G3 <- rep("G3", times = nrow(D) ) Est <- rep(rownames(D), times=3) C1 <- c(D[,1],D[,2],D[,3]) C0 <- c(D[,4],D[,5],D[,6]) Ge <-c ("G1","G2","G3")

77

G <- c(G1,G2,G3) datos.agrupados <- data.frame(G,Est,C1,C0) if(is.null(F) )

{ n.1 <- sum(D[,c(1,4)]) n.2<- 0 n.3 <- sum(D[,c(3,6)]) n. <- c(n.1,n.2,n.3) Fixed.G. <- Ge[which(n. == max(n.) ) ] Fixed.G.. <- Ge[which(n. != max(n.)& n. !=0 ) ] } else

{ Fixed.G. <- Ge[which(colnames(D) == F)] Fixed.G.. <- Ge[which(colnames(D) != F & colnames(D) != colnames(D)[2]) ][1] }

datos.agrupados$G. <- relevel(datos.agrupados$G, ref = Fixed.G.) Ajuste.datos.0 <- glm(cbind(C1,C0)~1, family = binomial, data = datos.agrupados) Ajuste.datos.step <- step(Ajuste.datos.0, scope = list(lower = cbind(C1,C0)~1, upper = cbind(C1,C0)~G. + Est), direction = "both", trace = FALSE) # ORs's value OR <- exp(Ajuste.datos.step$coefficients) # ORs's confidence intervals int <- exp(confint.default(Ajuste.datos.step)) # level 95% # New data.frame with the other categories datos.agrupados$G.. <- relevel(datos.agrupados$G,ref=Fixed.G..) Ajuste.datos.0. <- glm(cbind(C1,C0)~1, family = binomial, data = datos.agrupados) Ajuste.datos.step. <- step(Ajuste.datos.0, scope = list(lower = cbind(C1,C0)~1, upper = cbind(C1,C0)~G.. + Est), direction = "both", trace = FALSE) OR. <- exp(Ajuste.datos.step.$coefficients) int. <- exp(confint.default(Ajuste.datos.step.)) # level 95%

78

##### Regression analysis #####

Regression.analysis <- matrix (c (anova (Ajuste.datos.step)["G.",2], anova (Ajuste.datos.step)["G.",1], 1-pchisq (anova (Ajuste.datos.step)["G.", 2], anova (Ajuste.datos.step)["G.",1]) ), 1, 3, dimnames = list(c(""), c("chi-square", "df", "p-value") ) ) #If p-value is < 0.1 the genotypes are associated with disease. #ORs are going to be grouped in two matrices to link it better with its values. M <- matrix(c(OR, int), length(OR), 3, dim = list(c(names(OR) ), c("OR", "2.5%", "97.5%") ) ) M2 <- matrix(c(OR., int.), length(OR), 3, dim = list(c(names(OR.) ), c("OR.", "2.5%", "97.5%") ) ) if(Fixed.G. == "G1")

{ OR1 = M["G.G3",] OR2 = M2["G..G2",] OR3 = M["G.G2",] }

if(Fixed.G. == "G3")

{ OR1 = M["G.G1",] OR2 = M["G.G2",] OR3 = M2["G..G2",] }

#ORs's comparisons are: #OR1 = (colnames(D)[1] vs colnames(D)[3]) #OR2 = (colnames(D)[2] vs colnames(D)[3]) #OR3 = (colnames(D)[1] vs colnames(D)[2]) ## OR's table answer.OR <- data.frame(t(matrix(c(OR1, OR2, OR3), 3, 3, dimnames = list(c("Value_OR", "Int_1", "Int_2"), c("OR1", "OR2", "OR3") ) ) ) )

##### The best model genetic ##### # The independence is refused if the OR's confidence interval not includes the value # 1.

79

# If the OR's confidence interval includes the value 1 then there are independence # about the genotypes which are compared in this OR. if( ( (answer.OR[1,2]>1) | (answer.OR[1,3]<1) ) & ( (answer.OR[2,2]<1) & (answer.OR[2,3]>1) ) & ( (answer.OR[3,2]>1) | (answer.OR[3,3]<1) ) )

{ R<-c("OR1=OR3=!1 and OR2 = 1") C<-c("then a recessive model is suggested") } else

{ if( ( (answer.OR[1,2]>1) | (answer.OR[1,3]<1) ) & ((answer.OR[2,2]>1) | (answer.OR[2,3]<1) ) & ( (answer.OR[3,2]<1) & (answer.OR[3,3]>1) ) )

{ R<-c("OR1=OR2=!1 and OR3 = 1") C<-c("Then a dominant model is suggested.") } else

{ if( ( (answer.OR[1,2]<1) & (answer.OR[1,3]>1) ) & ( (answer.OR[2,2]>1) | (answer.OR[2,3]<1) ) & ( ( (1/answer.OR[3,3])>1) | ( (1/answer.OR[3,2])<1) ) )

{ R<-c("OR2=1/OR3=!1 and OR1 = 1") C<-c("Then a complete overdominant model is suggested.") } else

{ if( ( ( (answer.OR[1,2]) > (answer.OR[2,2]) ) & ( (answer.OR[2,2])>1) ) & ( ( (answer.OR[1,2]) > (answer.OR[3,2])) & ( (answer.OR[3,2])>1) ) )

{ R<-c("OR1>OR2>1 and OR1>OR3>1") C<-c("Then a codominant model is suggested.") } else

{ if( ( ( (answer.OR[1,3]) < (answer.OR[2,3]) ) & ( (answer.OR[2,3]) < 1) ) & ( ( (answer.OR[1,3]) < (answer.OR[3,3]) ) & ( (answer.OR[3,3])< 1) ) )

{ R<-c("OR1<OR2<1 and OR1<OR3<1") C<-c("Then a codominant model is suggested.") } else

{ R<-c() C<-c("There is a genetic effect without be able to specify what genetic model is reponsible.") }}}}}

80

#### Pooling data #### meta4 <- metabin(event.e = D[,1], n.e = (D[,1]+ D[,2]+ D[,3]), event.c = D[,4], n.c = (D[,4]+ D[,5]+ D[,6]), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE) meta5 <- metabin(event.e = D[,3], n.e = (D[,1]+ D[,2]+ D[,3]), event.c = D[,6], n.c = (D[,4]+ D[,5]+ D[,6]), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE) meta6 <- metabin(event.e = D[,2], n.e = (D[,1]+ D[,2]+ D[,3]), event.c = D[,3], n.c = (D[,4]+ D[,5]+ D[,6]), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE) pdf(file = paste(c("4.Forest.plot."), names(D)[1], c("vs"), names(D)[2], c("and"), names(D)[3], c(".pdf") ), width = 12, height = 30 ) Pooling.data.forest.plot <- forest.meta(meta4, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste(names(D)[1], "vs.", names(D)[3], "/", names(D)[2]), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c"), leftlabs = c("Studies", names(D)[1], paste("Total"), names(D)[1], paste("Total") ), rightcols = c("effect", "ci", "w.fixed"), rightlabs = c("OR", "95%-CI", "W(fijo)"), lab.e = "Case", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace = TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off() pdf(file = paste(c("5.Forest.plot." ), names(D)[3], c("vs"), names(D)[1], c("and"), names(D)[2], c(".pdf") ), width = 12, height = 30 ) Pooling.data.forest.plot <- forest.meta(meta5, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste(names(D)[3], "vs.", names(D)[1], "/", names(D)[2]), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c"), leftlabs = c("Studies", names(D)[3], paste("Total"), names(D)[3], paste("Total") ), rightcols = c("effect", "ci", "w.fixed"), rightlabs = c("OR", "95%-CI", "W(fijo)"), lab.e = "Case", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace = TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off() pdf(file = paste(c("6.Forest.plot."), names(D)[2], c("vs"), names(D)[1], c("and"), names(D)[3], c(".pdf") ), width = 12, height = 30 )

81

Pooling.data.forest.plot <- forest.meta(meta6, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste(names(D)[2], "vs.", names(D)[1], "/", names(D)[3]), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c"), leftlabs = c("Studies", names(D)[2], paste("Total"), names(D)[2], paste("Total") ), rightcols = c("effect", "ci", "w.fixed"), rightlabs = c("OR", "95%-CI", "W(fijo)"), lab.e = "Case", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace= TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off()

### PDF ## # The results are gotten in pdfs and txt. # It is necessary open the gridEsxtra library to create the next tables. # The values are rounded with three decimals. method = list (HWE = round(HWE, 3 ), Heterogeneity = round(Heterogeneity, 3), Regression.analysis=round(Regression.analysis,3), Determining.the.best.genetic.model = round(answer.OR, 3) ) table = vector("list") title = vector("list") footnote = vector("list") gt = vector("list") for(i in 1:(length(method) ) )

{ pdf = pdf(file = paste(names(method)[i], c(".pdf") ) ) table[[i]] <- tableGrob(method[[i]]) grid.newpage() h <- grobHeight(table[[i]]) w <- grobWidth(table[[i]]) title[[i]] <- textGrob(names(method[i]), y = unit(0.5,"npc") + 0.5*h,vjust = 0, gp= gpar(fontsize = 20) )

if(i == length(method)) { footnote <- textGrob(paste( R ,"\n" , C ), x = unit(0.5,"npc") - 0.5*w, y = unit(0.4,"npc") - 0.4*h, vjust = 1, hjust = 0, gp = gpar( fontface = "italic") ) }else

{ footnote = NULL

82

} gt[[i]] <- gTree(children = gList(table[[i]], title[[i]], footnote) ) grid.draw(gt[[i]]) dev.off() }

### .txt ##

for(i in 1:length(method))

{ write.table(method[[i]], file = paste(names(method)[i], c(".txt") ), sep = "\t", col.names = TRUE ) }

}

83

BIBLIOGRAFÍA:

A.M.Aguilera. (2006). Modelización de tablas de contingencia multidimensionales.

Madrid: La Muralla, S.A.

Allen, C., & Clarke, M. (2007). International activity in Cochrane Review Groups

with particular reference to India. The National Medical Journal of India , 20; 250-255.

Cochran, W. (1937). Problems arising the analysis of a series of experiments.

Journal of Royal Statistical Society , 4(suppl.):102-118.

Gonzalez, F., Urrútia, G., & Alonso-Coello, P. (2011). Revisiones sistemáticas y

metaanálisis: bases conceptuales e interpretación. Rev Esp Cardiol , 64(8):688–696.

Guaita, M. F. (2007). Lectura crítica de un metaanálisis y de una revisión

sistemática. En Atención sanitaria basada en la evidencia: su aplicación a la práctica

clínica (págs. 297-328). Murcia: Cosejería de Sanidad de la Región de Murcia.

Higgins, J., & Thompson, S. (2002). Quantifying heterogeneity in a meta-analysis.

Stat Med , 21:1539-1558.

Higgins, J., Thompson, S., Deeks, J., & Altman, D. (2003). Measuring inconsistency

in meta-analyses. BMJ , 327:557-560.

Hunter, D., Altshuler, D., & Rader, D. (2008). From Darwin's Finches to Canaries in

the Coal Mine- Mining the Genome for New Biology. N Engl J Med , 358: 2760-2763.

Iniesta, R., Guinóa, E., & Moreno, V. (2005). Análisis estadístico de polimorfismos

genéticos en estudios epidemiológicos. Gac Sanit , 19, 333-41.

Ortiz, Z. (1997). Metaanálisis como Método Básico en la investigación Científica de

la Práctica Diaria. Boletín Academia Nacional de Medicina , 16(4):424-26.

84

Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., & Ferreira, M. A. (2007). A

Tool Set for Whole-Genome Association and Population-Based Linkage Analyses. Am

J Hum Genet , 559-575.

Sharma, P. (1998). Meta-analysis of the ACE gene in ischaemic stroke. Journal of

Neurology Neurosurgery and Psychiatry , 64; 227-230.

Takkinstian, A., McElduff, P., D'Este, C., & al, e. (2005). A method for meta-

analysis of molecular association studies. Stat Med , 24:1291-1306.

Thomson Reuters. (s.f.). Obtenido de http://www.procite.com/

Thomson Reuters. (s.f.). Obtenido de http://www.refman.com/

Wang, D., Siao, C., & Fran, J. (1998). “Large-scale identification, mapping

andgenotyping of single nucleotide polymorphisms in the human genome”. Science ,

280:1077-82.