capÍtulo 10: genÉtica de los caracteres … · el concepto de ligamiento genético: fracción de...

14
CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 1 Tema 4. Búsqueda de genes responsables de enfermedades El concepto de ligamiento: fracción de recombinación y distancia genética. Informatividad de los marcadores utilizados en estudios de ligamiento. El cálculo del LOD score. Identificación de factores genéticos en enfermedades complejas: heredabilidad y estudios de asociación (GWAS). Detección de variantes raras de alto riesgo relativo: hacia los genomas individuales y la medicina genómica. El concepto de ligamiento genético: fracción de recombinación y distancia genética En los años 90 se comenzaron a identificar los primeros genes responsables de enfermedades genéticas, es decir cuál gen es el que está mutado en determinada enfermedad. Lógicamente, inicialmente se trataba de enfermedades monogénicas, en las que un único gen es el responsable. La metodología utilizada para esto se basaba en el análisis de ligamiento, que había sido ya desarrollado por T.H. Morgan en sus trabajos con Drosophila. Aunque algunos autores ya habían sugerido que los genes se sitúan en cromosomas concretos, la primera evidencia clara de esto vino al demostrarse que locus white de Drosophila está ligado al cromosoma X de la mosca. Después, Morgan identificó otro mutante llamado rudimentary que también mostraba ligamiento al cromosoma X, y estudió la segregación simultánea de estos dos genes. Según las leyes de la herencia mendeliana, dos loci que están en cromosomas distintos segregarán de manera independiente, es decir, los dos alelos de cada locus se distribuirán en los gametos de modo aleatorio. En cambio, cuando los dos loci están en el mismo cromosoma (se dice entonces que son sinténicos), cabe pensar que siempre se heredará la misma combinación de alelos y un miembro de la descendencia que herede un alelo concreto de uno de los loci también heredará el alelo del otro locus que estaba en el mismo cromosoma parental. Por el contrario, si se produce una recombinación (con sobrecruzamiento) en algún punto intermedio entre ambos loci durante la meiosis, los gametos llevarán combinaciones alélicas que no estaban presentes en ninguno de los progenitores, es decir, se formen gametos recombinantes. Morgan comprobó que podía darse recombinación entre el locus white y el locus rudimentary en Drosophila, pero al estudiar otros mutantes observó que nunca se detectaba recombinación con otros loci localizados en el mismo cromosoma, y llamó ligamiento a ese fenómeno. Alfred Sturtevant, un estudiante de Morgan, demostró que la probabilidad de que haya una recombinación entre dos loci depende de la distancia física que los separa, y por tanto la frecuencia con que aparecen recombinantes puede utilizarse para deducir la distancia que separa dos genes que están en el mismo cromosoma; Sturtevant construyó en una noche el primer mapa genético de ligamiento, en el que se representaba el orden y la distancia de cinco genes localizados en el cromosoma X de Drosophila. Poco después, Calvin Bridges detectó los primeros casos de ligamiento entre genes localizados en autosomas, y poco a poco se fueron describiendo distintos grupos de ligamiento. El concepto de ligamiento genético, por tanto, va intrínsecamente unido al de distancia física entre genes, que es la que origina distintas proporciones de individuos recombinantes en la descendencia. Cuando ambos loci están suficientemente alejados (aunque estén en el mismo cromosoma) existe una probabilidad tan alta de que haya un sobrecruzamiento entre ellos que segregarán de manera similar a una segregación independiente, produciendo gametos recombinantes en la mitad de la descendencia (50% de

Upload: lythuan

Post on 20-Sep-2018

232 views

Category:

Documents


0 download

TRANSCRIPT

CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 1

Tema 4. Búsqueda de genes responsables de enfermedades

El concepto de ligamiento: fracción de recombinación y distancia genética.

Informatividad de los marcadores utilizados en estudios de ligamiento. El

cálculo del LOD score. Identificación de factores genéticos en enfermedades

complejas: heredabilidad y estudios de asociación (GWAS). Detección de

variantes raras de alto riesgo relativo: hacia los genomas individuales y la

medicina genómica.

El concepto de ligamiento genético: fracción de recombinación y distancia

genética

En los años 90 se comenzaron a identificar los primeros genes responsables de enfermedades genéticas, es

decir cuál gen es el que está mutado en determinada enfermedad. Lógicamente, inicialmente se trataba de

enfermedades monogénicas, en las que un único gen es el responsable. La metodología utilizada para esto

se basaba en el análisis de ligamiento, que había sido ya desarrollado por T.H. Morgan en sus trabajos

con Drosophila.

Aunque algunos autores ya habían sugerido que los genes se sitúan en cromosomas concretos, la primera

evidencia clara de esto vino al demostrarse que locus white de Drosophila está ligado al cromosoma X de la

mosca. Después, Morgan identificó otro mutante llamado rudimentary que también mostraba ligamiento al

cromosoma X, y estudió la segregación simultánea de estos dos genes. Según las leyes de la herencia

mendeliana, dos loci que están en cromosomas distintos segregarán de manera independiente, es decir,

los dos alelos de cada locus se distribuirán en los gametos de modo aleatorio. En cambio, cuando los dos

loci están en el mismo cromosoma (se dice entonces que son sinténicos), cabe pensar que siempre se

heredará la misma combinación de alelos y un miembro de la descendencia que herede un alelo concreto de

uno de los loci también heredará el alelo del otro locus que estaba en el mismo cromosoma parental. Por el

contrario, si se produce una recombinación (con sobrecruzamiento) en algún punto intermedio entre ambos

loci durante la meiosis, los gametos llevarán combinaciones alélicas que no estaban presentes en ninguno

de los progenitores, es decir, se formen gametos recombinantes. Morgan comprobó que podía darse

recombinación entre el locus white y el locus rudimentary en Drosophila, pero al estudiar otros mutantes

observó que nunca se detectaba recombinación con otros loci localizados en el mismo cromosoma, y llamó

ligamiento a ese fenómeno. Alfred Sturtevant, un estudiante de Morgan, demostró que la probabilidad

de que haya una recombinación entre dos loci depende de la distancia física que los separa, y por tanto la

frecuencia con que aparecen recombinantes puede utilizarse para deducir la distancia que separa dos genes

que están en el mismo cromosoma; Sturtevant construyó en una noche el primer mapa genético de

ligamiento, en el que se representaba el orden y la distancia de cinco genes localizados en el cromosoma X

de Drosophila. Poco después, Calvin Bridges detectó los primeros casos de ligamiento entre genes

localizados en autosomas, y poco a poco se fueron describiendo distintos grupos de ligamiento. El

concepto de ligamiento genético, por tanto, va intrínsecamente unido al de distancia física entre genes, que

es la que origina distintas proporciones de individuos recombinantes en la descendencia.

Cuando ambos loci están suficientemente alejados (aunque estén en el mismo cromosoma) existe una

probabilidad tan alta de que haya un sobrecruzamiento entre ellos que segregarán de manera similar a una

segregación independiente, produciendo gametos recombinantes en la mitad de la descendencia (50% de

CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 2

gametos recombinantes y 50% de gametos no-recombinantes). En este sentido, es importante

recordar que el sobrecruzamiento tiene lugar entre dos cromátides, cada una perteneciente a un

cromosoma homólogo; las otras dos cromátides no se recombinan, de ahí que un sobrecruzamiento da lugar

a cuatro gametos de los cuales dos son recombinantes y los otros dos son idénticos a los cromosomas

originales. Sin embargo, a medida que dos loci sinténicos se sitúan más cerca uno del otro, la probabilidad

de que haya un sobrecruzamiento entre ellos es cada vez menor, y por tanto la probabilidad de

formación de gametos recombinantes también va decreciendo. Puede llegarse a un punto en que los

loci estén tan juntos que nunca se dé un sobrecruzamiento entre ellos, de modo que no se originarán

gametos recombinantes y no se encontrarán individuos recombinantes en la descendencia. Por tanto, la

cuantificación del número de eventos de recombinación entre dos loci nos permite estimar la distancia

genética entre ellos: a mayor proximidad, menor probabilidad de recombinación y por tanto el porcentaje de

individuos recombinantes será menor.

Figura 4.1 En este video se ilustra el fenómeno del ligamiento de dos loci: la

distancia entre ambos determina la probabilidad de un sobrecruzamiento, de

tal manera que la probabilidad de encontrar individuos recombinantes en la

descendencia es menor cuanto más cerca están.

En Genética Humana, la cuantificación de la frecuencia de recombinación se hace estudiando la segregación

de dos secuencias de ADN en los individuos de una familia, e identificando aquellos individuos cuyo genotipo

sólo pueda explicarse por una recombinación en la meiosis de uno de los progenitores. Las secuencias que

se utilizan en estudios de ligamiento se denominan marcadores genéticos, que son secuencias que se

encuentran en distintas formas (distintos alelos) en la población general, ya que para detectar si ha habido

recombinación debemos ser capaces de distinguir los distintos alelos. Además, los estudios de ligamiento

entre marcadores sirven para establecer mapas de ligamiento en los que estos marcadores están en un

orden determinado, separados por distancias precisas. Por tanto, los marcadores utilizados en estudios de

ligamiento son polimorfismos genéticos, es decir, secuencias que se encuentran en la población en varias

formas posibles. Diferentes individuos de la población pueden tener, por tanto, distintos genotipos

(distintas combinaciones de alelos) para un marcador concreto. Los principales tipos de polimorfismos

genéticos que se utilizan como marcadores en estudios de ligamiento han sido explicados con detalle al

hablar del genoma humano.

Para realizar mapas de ligamiento entre marcadores, es necesario ante todo genotipar cada uno de los

marcadores en todos los miembros de una ó varias familias. Al analizar los genotipos de cada individuo y la

segregación de los diferentes alelos, se pueden identificar los individuos recombinantes, aquellos cuyo

genotipo sólo puede explicarse por una recombinación en uno de sus progenitores. La cantidad de

individuos recombinantes en la descendencia nos permite calcular la fracción de recombinación

(representada por la letra griega ), que se define como el número de individuos recombinantes dividido por

el número total de individuos en la descendencia. Además de estudiar la distancia entre marcadores, en los

estudios de ligamiento que se realizan en Genética Humana es frecuente buscar cuál es la distancia entre un

marcador y el locus responsable de una enfermedad genética. En estos casos, el análisis de ligamiento nos

permitirá calcular la distancia entre el marcador y el gen responsable de una enfermedad.

Utilizando esta metodología se han identificado los genes responsables de muchas enfermedades genéticas,

mediante una estrategia denominada clonaje posicional: al conocer la distancia que separa el locus

responsable de una enfermedad de varios marcadores genéticos concretos, se simplifica enormemente la

tarea de identificar el gen causal.

CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 3

Figura 4.2 Se muestra el árbol correspondiente a una familia en la que

segrega una enfermedad autosómica dominante, indicando los individuos

enfermos (símbolos rojos) y los genotipos de un marcador que podría estar

en ligamiento con la enfermedad. Como se explica en el video, al analizar la

descendencia en la generación III podemos deducir fácilmente si un

individuo es recombinante o no, y calcular la fracción de recombinación.

La fracción de recombinación, calculada tal y como se ha explicado en la Figura anterior, nos permite

estimar la distancia genética entre dos loci, distancia que se mide en centimorgans (cM): cuando entre

dos loci se detecta una fracción de recombinación = 0,01 (1% de individuos recombinantes), se dice que

ambos loci están a una distancia genética de 1 cM. Esta distancia genética (1 cM) equivale

aproximadamente a 1 Mb (megabase) de distancia física, aunque esta equivalencia varía a lo largo del

genoma y hay funciones matemáticas más exactas para convertir la distancia genética en distancia física.

En cualquier caso, es importante comprender que la fracción de recombinación nunca podrá ser mayor a

0,5 (50%), ya que éste es precisamente el porcentaje de individuos recombinantes que se producen en

ausencia de ligamiento (cuando siempre hay una recombinación, como se ha explicado más arriba) o en el

caso de que ambos loci estén situados en cromosomas distintos.

Informatividad de los marcadores utilizados en estudios de ligamiento

Como acabamos de explicar, para poder realizar estudios de ligamiento es necesario identificar los

individuos recombinantes para determinar la fracción de recombinación. Por desgracia, en ocasiones es

imposible establecer si un individuo de la descendencia es recombinante o no, bien porque el individuo que

transmite la enfermedad es homocigoto para el marcador analizado, o bien porque es heterocigoto idéntico

al otro progenitor; estas situaciones dan lugar a lo que denominamos familias no-informativas o semi-

informativas, respectivamente.

Figura 4.3 El video explica el concepto de informatividad de un marcador,

según la probabilidad de encontrar individuos heterocigotos distintos para

ese marcador en la población general. Se muestran varios ejemplos de

familias informativas, semi-informativas o no informativas.

Lo posibilidad de perder informatividad subraya la importancia de usar marcadores para los que todos los

árboles analizados sean informativos, lo cual dependerá directamente de la informatividad de los

marcadores utilizados. La informatividad de un marcador refleja la probabilidad de encontrar individuos

heterocigotos para ese marcador en la población general, y es función del número de alelos posibles para

el marcador y de las frecuencias relativas de cada alelo en la población. Teniendo en cuenta las

características de cada tipo de marcador, es posible calcular dos parámetros que definen la informatividad

de un marcador genético: el índice de heterocigosidad y el PIC (contenido de información de un

polimorfismo, Polymorphism Information Content en inglés). Estos parámetros se calculan mediante la

siguiente fórmula:

CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 4

El primer miembro (1 - pi 2) es la heterocigosidad, es decir, el porcentaje de individuos de la

población general que son heterocigotos para ese marcador. Ya hemos visto que si el individuo que

transmite la enfermedad es homocigoto para un marcador, esa familia no será informativa para ese

marcador, de ahí que la heterocigosidad sea una medida de la informatividad de un marcador genético.

Como pi2 es la frecuencia de homocigotos para cada alelo del marcador, el sumatorio de todos los

posibles homocigotos se le resta a 1 y se obtiene así el porcentaje de heterocigotos. Como criterio

general, se puede decir que la heterocigosidad de un marcador aumenta: (a) con el número de alelos

que ese marcador presenta en la población general; y (b) cuanto más parecidas son las frecuencias de

los distintos alelos de ese marcador.

El segundo miembro de la ecuación le resta a la heterocigosidad la probabilidad de que una familia no

sea informativa debido a que ambos padres son heterocigotos idénticos (en cuyo caso, como hemos

visto antes, la mitad de la descendencia será informativa (homocigotos) y la mitad será no-informativa

(los heterocigotos). Como es sabido, para dos alelos i y j con frecuencias alélicas pi y pj la frecuencia de

heterocigotos es 2pipj. Por tanto, la probabilidad de que dos individuos sean heterocigotos idénticos es

2pip

j x 2p

ip

j = 4(pi2pj2), pero como sólo se pierde informatividad en la mitad de la descendencia, en

la ecuación se resta sólo 2(pi2pj

2).

Algunos ejemplos del cálculo del PIC ilustrarán la informatividad de los distintos tipos de marcadores

genéticos. Por ejemplo, un marcador bialélico (el caso típico sería un RFLP) con frecuencias alélicas iguales

(p1=p2=0,5) tendría:

Heterocigosidad = [1 – (p12+p2

2)] = [1 – (0.52+ 0.52)] = 1– 0.5 = 0.5

PIC = 1 – (p12+p2

2) – 2(p12 x p2

2) = 1 – (0.52+ 0.52) – 2(0.52 x 0.52) = 0.375

En cambio, un marcador con cuatro alelos (alelos 1, 2, 3 y 4) en el que cada alelo tiene una frecuencia p

= 0,25, presentará en principio 6 posibles combinaciones de heterocigotos, con genotipos (1-2), (1-3), (1-

4), (2-3), (2-4) y (3-4). Por tanto, para calcular todos los posibles casos de heterocigotos idénticos en la

población, habrá que sumar [2(p12 p2

2)] + [2(p12 p3

2)] + [2(p12 p4

2)] + [2(p22 p3

2)] + … hasta

completar las seis posibles combinaciones de heterocigotos. Aplicando la fórmula general:

Heterocigosidad = [1 – (0,252+ 0,252+ 0,252+ 0,252 )] = 0,75

PIC= 1 – (0,252+ 0,252+ 0,252+ 0,252 ) – 6 [2(0,252 x 0,252 )] = 0,703

Como se ve, el hecho de que un marcador tenga 4 posibles alelos en vez de 2 aumenta su informatividad

casi al doble. De hecho, un marcador con 10 alelos arrojaría, aplicando la fórmula anterior, un PIC de 0,891

si las frecuencias alélicas son iguales. Por tanto, de los distintos marcadores que se han mencionado, los

más informativos son los de tipo microsatélite, seguidos por SNP y RFLP. De todas formas, como ya se

n n-1 n

PIC = 1 - pi2 - 2pi

2 pj

2

i=1 i=1 j=i+1

heterocigosidad % heterocigotos idénticos

CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 5

ha comentado, la posibilidad de estudiar a la vez miles de SNPs de forma automatizada (algo que no es

posible con los microsatélites), junto con su alta densidad a lo largo del genoma, hace que los SNP sean

hoy en día los marcadores de mayor utilidad en los estudios de asociación que se explicarán más adelante.

Sea cual sea el tipo de marcador utilizado, los estudios de ligamiento requieren genotipar a todos los

miembros de una familia para detectar la presencia de individuos recombinantes y así poder calcular la

fracción de recombinación. En el ejemplo de la familia con una enfermedad autosómica dominante

presentado en la Figura 4.2, hemos podido establecer que el individuo transmisor de la enfermedad

transmitía a la vez el alelo 2 del marcador, ya que ambos se localizan a poca distancia en el mismo

cromosoma. Sabemos esto porque este individuo, a su vez, heredó la enfermedad de su padre, que también

le transmitió el alelo 2 del marcador. Cuando en un individuo que transmite una enfermedad podemos

determinar inequívocamente el origen parental tanto del alelo que causa la enfermedad como de los alelos

del marcador es decir, podemos determinar qué alelos de cada uno de los dos loci van en el mismo

cromosoma se dice que conocemos la fase de ligamiento de ese individuo. Precisamente es el hecho de

conocer la fase de ligamiento en el individuo transmisor lo que hace que todas las meiosis de este individuo

sean informativas, y nos permite determinar con certeza si los individuos de la descendencia son

recombinantes o no. Se recordará que en el caso concreto de esta familia había un individuo recombinante

de un total de 6, lo que sugiere que ambos loci (el marcador y el gen de la enfermedad) están en ligamiento

a una distancia que produce 1 recombinante de cada 6 individuos (fracción de recombinación =1/6=0,17,

es decir a una distancia genética de 17 cM). El principal problema es que este resultado podría haberse

dado por azar: teóricamente es posible que no haya ligamiento y que una descendencia más numerosa

nos mostrase una fracción de recombinación más cercana al 50% de individuos recombinantes. Frente a

esta "hipótesis nula" (no ligamiento) tenemos una hipótesis alternativa de que existe ligamiento entre

ambos loci, a una distancia tal que origina una = 0,17. ¿Cómo podemos determinar cuál de las dos

hipótesis es la verdadera ó, al menos, la que mejor explica los datos obtenidos en esta familia?

El cálculo del LOD score

Para cuantificar la significación de cada una de estas hipótesis, los estudios de ligamiento utilizan un método

llamado "Estimación de la Máxima Verosimilitud" ("verosimilitud" es la traducción del término inglés

likelihood). Este método consiste en estimar la verosimilitud de cada hipótesis, calculando la probabilidad de

encontrarnos con esa fracción de recombinación cuando se verifica esa hipótesis. Por ejemplo, para estimar

la verosimilitud de la hipótesis de ligamiento, calculamos la probabilidad de obtener 1 recombinante de cada

6 individuos en el caso de que exista ligamiento a una distancia de 17 cM; para estimar la verosimilitud de

la hipótesis nula, calculamos la probabilidad de obtener 1 recombinante de cada 6 individuos en el caso de

que no exista ligamiento, y así sucesivamente. La siguiente caja ilustra el razonamiento matemático que

se sigue para estimar estas probabilidades, con un ejemplo del lanzamiento de monedas:

La manera de estimar la verosimilitud de una hipótesis se puede ilustrar muy bien con el ejemplo

de una moneda que se tira al aire 10 veces, produciendo 8 caras y 2 cruces. Con estos datos

experimentales, podríamos formular una hipótesis H1 según la cuál la moneda está deformada o

trucada y siempre producirá 8 caras de cada 10. Según esta hipótesis, la probabilidad de obtener

cara es P(cara)=8/10 y la probabilidad de obtener cruz es P(cruz)=2/10. Por tanto, la probabilidad

de obtener 8 caras es P(8 caras) = 0,88 y la probabilidad de obtener 2 cruces es P(2 cruces) = 0,22.

En conjunto, la verosimilitud de que la hipótesis de trucaje explique 8 caras y dos cruces es L(H1)

= 0,88 x 0.22 = 0,0067.

CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 6

La hipótesis nula H0, en cambio, afirmaría que la moneda es normal y que estos datos

experimentales son fruto del azar. Según esta hipótesis, por tanto, la probabilidad de obtener una

cara es igual a la de obtener cruz, P(cara)=P(cruz)=1/2. La probabilidad de obtener 8 caras y dos

cruces en estas condiciones sería 0,58 x 0,52 = 0,001.

¿Cuál es la hipótesis más verosímil para explicar nuestros datos experimentales? Por supuesto H1,

pero ¿cuánto más verosímil que H0? Para esto calculamos el cociente de verosimilitudes, llamado

en inglés LIKELIHOOD RATIO, que se obtiene siemplemente dividiendo la verosimilidad de la

hipótesis H1 entre la verosimilitud de la hipótesis nula H0, es decir, Likelihood Ratio = L (H1) /

L(H0). En nuestro caso, este cociente sería 0,0067/0,001 = 6,7, es decir la hipótesis H1 es 6,7

veces más verosímil que la hipótesis nula.

Aumentando el número de veces que se lanza la moneda aumenta progresivamente la verosimilitud

de la hipótesis aunque se mantengan los mismos porcentajes, ya que el cociente de verosimilitudes

se hace mayor. Por ejemplo, si tiramos la moneda 50 veces y obtenemos 40 caras y 10 cruces (la

misma proporción de caras y cruces que en el caso anterior), ahora L(H1)= 0,840 x 0,210 = 13,6 x

10-12 mientras que la verosimilitud de la hipótesis nula es L(H0)=0,550= 8,9 x 10-16. El cociente de

verosimilitudes es ahora L(H1)/L(H0)= 1.5 x 104.

Aplicando esta forma de proceder al árbol que hemos venido estudiando, recordamos que hay 5 individuos

no-recombinantes y 1 recombinante, luego formulamos la hipótesis H1 de que la distancia entre el locus de

la enfermedad y el locus del marcador es tal que producen una frecuencia de recombinación =1/6. Por

tanto, bajo esta hipótesis, la probabilidad de encontrar un individuo recombinante es P(R)=1/6, y la

probabilidad de encontrar un no-recombinante es P(NR)=5/6. La verosimilitud de que esta hipótesis (H1,

=1/6) explique nuestros datos experimentales (5 no-recombinantes y 1 recombinante) se calcula aplicando

la fórmula general:

Por el contrario, la verosimilitud de la hipótesis nula para explicar nuestros datos sería:

Para calcular cuántas veces más verosímil es nuestra hipótesis que la hipótesis nula, hallamos el cociente de

verosimilitudes (likelihood ratio). En genética humana, para que este cociente sea significativo al 95% se

requiere que sea mayor o igual a 1000. Es fácil darse cuenta que uno de los principales problemas que

nos encontramos es el tamaño pequeño de las generaciones, al contrario de los estudios de ligamiento que

se hacen en otras especies. Una forma de solventar este problema es repetir el análisis en varias familias

distintas, y combinar los resultados obtenidos en cada una de ellas con el fin de aumentar la potencia

estadística de los estudios de ligamiento. Para poder combinar resultados de familias distintas, Newton

Morton ideó el concepto del Lod score (que podría traducirse como "puntuación lod" y se representa por la

letra Z), que es el log10

del cociente de verosimilitudes. Por tanto, un cociente de verosimilitudes = 1000

equivale a un lod score igual a 3 (Z=3), y éste es precisamente el valor mínimo de Z que se requiere

para poder afirmar que existe ligamiento significativo entre dos loci.

L (H1) = R x (1-)NR

L (H0) = (R + NR)

CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 7

Para hallar el lod score máximo de todos los posibles, es habitual utilizar programas de ordenador que

calculan directamente el lod score que se obtiene para varias hipótesis de ligamiento y a distintos valores de

. Además, como los resultados de una sola familia raras veces serán significativos, necesitamos combinar

los resultados obtenidos a partir de los datos de varias familias. Para ello, se suman los lod scores (Z)

obtenidos para cada en las distintas familias que estamos analizando, hasta identificar la fracción de

recombinación a la que obtenemos el lod score máximo en el conjunto de las familias analizadas.

Éste es el valor que finalmente nos permitirá afirmar si existe o no ligamiento significativo entre el gen de la

enfermedad y este marcador. Además, como la Z máxima se obtiene a una fracción de recombinación

concreta, podemos también estimar la distancia genética más probable entre ambos loci, expresada —como

siempre— en centimorgans. Por ejemplo, si la Z máxima se obtuvo a una = 0,16, la distancia genética

entre ambos loci estará en torno de 16 cM, con un intervalo de confianza cuyo cálculo es también sencillo.

Figura 4.4 El cálculo del LOD score (Z) puede ilustrarse con el ejemplo de

esta familia, en la que se indica el único individuo recombinante de la

generación III con una flecha. La fracción de recombinación es 0,17, por lo

que se calcula la verosimilitud (likelihood) de la hipótesis de ligamiento a esa

fracción de recombinación y a la fracción de recombinación que obtendríamos

si no hubiese ligamiento (0,5). Tras calcular el cociente de ambas

verosimilitudes, calculamos el LOD score tal y como se indica.

Como se muestra en este video, se puede calcular el LOD score para todas las

fracciones de recombinación posibles, representando gráficamente los

resultados.

CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 8

Como los resultados de una sola familia no son suficientes para detectar ligamiento, lo habitual es

combinar los resultados obtenidos para varias familias y sumar los LOD score a cada fracción de

recombinación. Por ejemplo, si combinamos los resultados de 5 familias como la anterior, obtenemos:

Ahora, el valor más alto de LOD score aparece a una fracción de recombinación de 0,20. De todas formas,

para calcular el LOD score máximo (Zmax) hemos de representar gráficamente esos datos, buscar los

valores con Z>3 y detectar el punto más alto de la curva:

Estos resultados indican que, efectivamente, el LOD score máximo se obtiene a una fracción de

recombinación de 0,16. Como Z>3 en ese punto, se puede concluir que existe ligamiento entre este

marcador y el gen que causa la enfermedad, y que la distancia más probable entre ambos es de 16 cM.

Un problema muy importante en los estudios de ligamiento es que muchas veces no podemos deducir la

fase de ligamiento en el progenitor que transmite la enfermedad, al no poder establecer con exactitud si

un alelo concreto del marcador está en el mismo cromosoma que lleva el alelo mutado o si está en el

cromosoma homólogo. Lógicamente, esto impide establecer si un individuo de la descendencia es

recombinante o no, y por tanto complica mucho el cálculo de la fracción de recombinación. De hecho,

hay dos posibles fases de ligamiento que tienen la misma probabilidad, y esto ha de tenerse en cuenta a la

CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 9

hora de estimar la verosimilitud de cada hipótesis. Así, se calcula el cociente de verosimilitudes para cada

una de las fases de ligamiento alternativas y se halla el lod score promedio de ambas:

Lógicamente, el desconocimiento de la fase de ligamiento en el individuo que transmite la enfermedad hace

que el valor final del lod score sea más bajo, por lo que –si los loci estudiados están realmente en

ligamiento— será necesario estudiar un mayor número de familias para poder alcanzar el valor umbral de

Z=3.

Es muy útil representar los valores que adopta el lod score Z en función de los distintos valores de la

fracción de recombinación . Cuando se hace esto, podemos observar varios tipos posibles de curva:

Si no se ha encontrado ningún individuo recombinante en ninguna de las familias estudiadas,

esto quiere decir que los dos loci que estamos estudiando (el locus de la enfermedad y el del

marcador) están en ligamiento y tan cercanos entre sí que no se producen sobrecruzamientos

entre ellos. El lod score es máximo a = 0, para ir bajando hasta Z=0 para una = 0,5.

Cuando existe ligamiento, lo más habitual es hallar una curva de forma parabólica, con un

pico máximo de lod score a una determinada fracción de recombinación. En estos casos el lod

score a la fracción de recombinación = 0 debe ser (– ), ya que hemos encontrado

individuos recombinantes en alguna de las familias y esto hace imposible la hipótesis de que la

fracción de recombinación sea cero. El intervalo de confianza de la fracción de recombinación

máxima se calcula trazando una horizontal una unidad de lod score por debajo de la Z

máxima, y viendo dónde corta ambas ramas de la curva. Como siempre, el lod score Z se

hace 0 para una fracción de recombinación =0.5, pues en este caso el cociente de

verosimilitudes L(H1)/L(H0) = 1, y el log10 de 1 es igual a 0.

En ocasiones, la curva alcanza valores de Z inferiores a –2. En estas circunstancias

podemos afirmar que NO existe ligamiento por debajo de una determinada fracción de

recombinación y por tanto ambos loci necesariamente están a una distancia genética superior

a la indicada por esa fracción de recombinación (si es que efectivamente están en ligamiento).

Finalmente, hay ocasiones en que no encontramos ligamiento significativo, pero tampoco

podemos excluirlo para ninguna de las estudiadas, puesto que no hay ningún valor de lod

score que sea superior a +3 o inferior a –2. En estos casos no podemos extraer ninguna

información útil de los datos obtenidos de estas familias.

Z () = log 10

[1/2 [ R(1-)NR/ 0.5(R+NR)] + 1/2 [ NR(1-) R/ 0.5(R+NR)]]

CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 10

Identificación de factores genéticos en enfermedades complejas:

heredabilidad y estudios de asociación (GWAS).

Algunos rasgos fenotípicos cuantitativos, como por ejemplo la presión arterial o los niveles de glucosa en

sangre, se encuentran en la población mostrando una distribución normal debido a la interacción varios

genes (cada uno de los cuales se heredaría de forma mendeliana) a los que se añade la acción de factores

ambientales, lo cual se denomina herencia multifactorial. Por ejemplo, podemos imaginar un modelo

sencillo de dos loci que regulan la presión sanguínea, de forma que cada uno de ellos se hereda de modo

mendeliano y provoca un aumento de 20 mm de presión arterial cuando se encuentra en estado homocigoto

para el alelo dominante (mayúscula), 10 mm en los heterocigotos o no provoca ningún aumento en los

homocigotos para el alelo recesivo (minúscula). Representando estos valores en un gráfico de barras, se

puede comprobar que 1/16 de la población tendrá un genotipo AA/BB (aumento de 40 mm de presión

arterial), 4/16 de la población tendrá genotipos que provocan un aumento de 30 mm, 6/16 tendrá genotipos

con 20 mm, 4/16 con 10 mm y 1/16 serán genotipo aa/bb (0 mm de aumento). Como se ve, estos valores

se aproximan a una distribución normal. Lógicamente, la presencia de más loci hace que aparezcan más

categorías (más barras) y que la curva de distribución se "suavice" cada vez más. La variación debida a

factores ambientales (ingesta de sal, ejercicio físico, etc.) sobreañadidos a los factores genéticos producirá

la curva gaussiana típica de muchos de estos rasgos cuantitativos.

Figura 4.5 incluye un video que ilustra la importancia de la herencia

multifactorial en las enfermedades complejas.

En el campo de la Genética Humana la herencia multifactorial es de gran importancia, porque la mayoría de

los fenotipos y muchas enfermedades, conocidas como enfermedades complejas, siguen este tipo de

herencia. De hecho, las enfermedades multifactoriales o complejas son las más importantes desde el punto

de vista epidemiológico, por lo que actualmente son objeto de investigación con el fin de identificar los

factores genéticos y ambientales implicados. Fruto del trabajo de estos últimos años, se ha detectado un

alto número de loci genéticos relacionados con el desarrollo de enfermedades como cáncer, diabetes,

hipertensión, esquizofrenia, enfermedades neuro-degenerativas, etc.

Para cuantificar la magnitud del componente genético de una enfermedad, concepto análogo a la

heredabilidad, se utilizan actualmente dos procedimientos:

Cálculo del riesgo relativo. Si calculamos el riesgo relativo de padecer la enfermedad que tienen

distintos grupos de personas relacionadas genéticamente, como por ejemplo los hermanos de

individuos enfermos, y vemos que el riesgo de padecer la enfermedad en ese grupo es

significativamente mayor que en la población general, podemos deducir que existen factores genéticos

que determinan la aparición de esta enfermedad. El riesgo relativo se calcula como R, en la que el

subíndice R indica el grado de parentesco del grupo que estamos estudiando con los individuos

enfermos. Por ejemplo o (la "O" viene del inglés offspring, que significa "descendencia") indicaría la

prevalencia de la enfermedad en los hijos e hijas de individuos enfermos; s (la "S" viene del inglés

sibs, que significa "hermanos y hermanas") sería la prevalencia de la enfermedad en los hermanos y

hermanas de individuos enfermos, etc. Calculando el cociente de cada uno de estos riesgos entre el

riesgo poblacional general podemos calcular el riesgo relativo. Un concepto similar al de riesgo relativo

es el de odds ratio (cociente del producto cruzado), que se calcula de otro modo pero nos da

prácticamente la misma información. La interpretación de estos cálculos es la misma: si los parientes

de los individuos enfermos tienen un riesgo significativamente aumentado de padecer la enfermedad

CAPÍTULO 10: GENÉTICA DE LOS CARACTERES CUANTITATIVOS 11

frente al riesgo de la población general, se puede suponer que la enfermedad tiene un componente

genético importante.

Cálculo de las tasas de concordancia en parejas de gemelos. Si una enfermedad tiene un

componente genético significativo, aparecerá con mayor frecuencia en individuos con mayor parecido

genético que en individuos genéticamente más distantes. Un modo elegante de estudiar esto en la

práctica es comparar los gemelos dicigóticos (cuyo grado de identidad genética es igual al de una

pareja cualquiera de hermanos) y los gemelos monocigóticos, ya que éstos son prácticamente

idénticos desde el punto de vista genético. Este tipo de estudios, que han dado abundantes frutos en

Genética Humana, se basan en el cálculo de las tasas de concordancia, es decir, el porcentaje de

parejas de gemelos que concuerdan para un mismo rasgo fenotípico (una enfermedad, en este caso),

de manera que simplemente calculamos el porcentaje de parejas de gemelos en las que ambos

padecen la misma enfermedad. Estas parejas serían "concordantes" para esa enfermedad, mientras que

las parejas en las que un gemelo está enfermo pero el otro está sano serían parejas "discordantes".

Pues bien, si una enfermedad tiene un fuerte componente genético, la tasa de concordancia en parejas

de gemelos monocigóticos (MC) será claramente más alta que en parejas de gemelos dicigóticos (DC),

pues aquellos comparten mayor número de genes que éstos. Además, este tipo de análisis tiene la

ventaja de que corrige la influencia de los factores ambientales, ya que en la mayoría de los casos

ambos hermanos gemelos —tanto MC como DC— han estado sometidos a las mismas influencias

ambientales. En el caso de rasgos cuantitativos (la presión arterial, por ejemplo) la estimación de la

concordancia puede realizarse mediante el cálculo del coeficiente de correlación intraclase (correlación

de los valores de presión arterial de un hermano con su gemelo respectivo), de forma que un

coeficiente de correlación R = 1 equivale al 100% de concordancia. La comparación de concordancias

entre gemelos MC y DC se hace del mismo modo que se comparan dos coeficientes de correlación. En el

caso de rasgos cualitativos (presencia o ausencia de una enfermedad) simplemente calculamos el

porcentaje de parejas de gemelos que concuerdan para esa enfermedad y así obtenemos la tasa de

concordancia (porcentaje de parejas concordantes respecto al total de parejas). Con estos datos

podemos estimar la heredabilidad (h), mediante la fórmula h = 2 (Cmc - Cdc), en la que C es la

tasa de concordancia (Cmc en monocigóticos y Cdc en dicigóticos). Los valores de heredabilidad

calculados de este modo tienen un rango teórico entre +1.5 (que correspondería a un rasgo

monogénico autosómico recesivo, con

Cmc = 1 y Cdc = 0.25) y 0 (Cmc =

Cdc, en el caso de un rasgo influído

sólo por el ambiente). En general, se

considera que las enfermedades con

una heredabilidad en torno a 1 (o

superior) tienen un componente

genético importante.

h = 2 x (CMC − CDC)

Tasa de concordancia

Gemelos MC Gemelos DC Heredabilidad

Enf. Bipolar 0,79 0,24 >1

Autismo 0,92 0 >1

Sarampión 0,95 0,87 0,16

Diabetes tipo I 0,40 0,04 0,72

Diabetes tipo II 0,50 0,37 0,26

Hipertensión 0,70 0,40 0,60

h = 2 x (CMC − CDC)

Tasa de concordancia

Gemelos MC Gemelos DC Heredabilidad

Enf. Bipolar 0,79 0,24 >1

Autismo 0,92 0 >1

Sarampión 0,95 0,87 0,16

Diabetes tipo I 0,40 0,04 0,72

Diabetes tipo II 0,50 0,37 0,26

Hipertensión 0,70 0,40 0,60

CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS 12

Hoy en día, las nuevas tecnologías de genotipaje que utilizan marcadores tipo SNP (Single Nucleotide

Polymorphisms, ya vistos anteriormente) han acelerado enormemente la identificación de genes que

confieren susceptibilidad a enfermedades comunes. En este sentido, es importante detectar los SNP

que pueden ser más informativos en estos estudios: se estima que en toda la población mundial se

encuentran más de 10 millones de SNPs en los que ambas variantes alélicas tienen una frecuencia

mayor o igual a 1%. A pesar del indudable interés que tienen estos polimorfismos para realizar estudios

de asociación alélica, genotipar todos estos SNPs en un número grande de individuos es impracticable.

Podemos salvar este obstáculo gracias a que muchos SNP, por estar muy cerca físicamente, se heredan

juntos en pequeños bloques de desequilibrio de ligamiento. La combinación concreta de alelos de los

distintos SNP que están en un mismo bloque constituye un haplotipo característico de ese bloque. Por

tanto, un grupo reducido de SNPs de cada haplotipo pueden ser representativos de todo ese haplotipo

(por lo que reciben el nombre de tag-SNPs, o SNP-etiqueta); de este modo, no es necesario genotipar

todos los SNPs del genoma, sino sólo los SNP-etiqueta. De hecho, la metodología actual permite analizar

500.000 a 1 millón de SNPs rutinariamente, lo cual es suficiente para cubrir todos los haplotipos del

genoma humano. El Proyecto Internacional Hapmap ha construido un catálogo con todos los

haplotipos de SNPs presentes en diversas poblaciones humanas, detallando la estructura y el tamaño de

los bloques de desequilibrio de ligamiento del genoma. Esto hace posible llevar a cabo estudios de

asociación para identificar las regiones donde residen los genes que confieren susceptibilidad a

enfermedades comunes. A continuación se explica cómo se llevan a cabo estos estudios, conocidos como

GWAS (en inglés, Genome Wide Association Study).

Fases de un estudio de GWAS:

1. Selección de SNPs a genotipar: Utilizando herramientas bioiformáticas es relativamente sencillo

visualizar la posición y tamaño de los bloques haplotípicos a lo largo del genoma (bloques de SNPs

que están en desequilibrio de ligamiento). La posición y tamaño de estos bloques nos ayuda a

seleccionar los SNPs más adecuados para cubrir todo el genoma con el menor número posible de

sondas. Este trabajo previo de selección habitualmente lo hacen los fabricantes de microarrays de SNPs,

que actualmente analizan en torno a los 500.000 – 1.000.000 de SNPs por microarray.

2. Toma de muestras de las cohortes a estudiar: Los estudios de asociación "genome-wide" requieren un

gran número de muestras, para poder detectar señales de asociación débiles. Idealmente, deben

utilizarse cohortes (casos y controles, por lo general) de al menos 1.000 individuos cada una, sin

diferencias de sexo, edad y procedencia étnica.

3. Análisis de resultados: Utilizando distintas herramientas, se generan los haplotipos y se buscan

señales de asociación, es decir, SNPs en los que un alelo esté estadísticamente sobre-

representado en los casos (enfermos) respecto a los controles (sanos). Esto se hace utilizando un test

de Chi-cuadrado o de Fisher, con corrección para pruebas múltiples.

CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS 13

La Figura 4.6 muestra el valor de asociación (en el eje Y) para varios miles

de SNPs distribuidos por todo el genoma. Hay dos SNP con valores de

asociación significativamente elevados. La posición de estos SNP indica

que en esa región existe uno o varios genes implicados en el desarrollo del

rasgo fenotípico que se está analizando (una enfermedad, por ejemplo).

Imagen obtenida de http://www.goldenhelix.com/images/solutions/visualization/manhattan.png

4. Refinar la asociación y replicar los resultados: En la etapa final, las regiones para las que se detectó

asociación deben refinarse genotipando más SNPs en esa zona concreta, para así delimitar mejor la

región implicada. Además, los resultados deben confirmarse estudiando cohortes distintas con un

número de casos y controles similar al del primer estudio.

Los estudios de asociación a escala genómica están dando resultados muy valiosos. En los años 2007 y

2008 se han publicado bastantes estudios que encuentran regiones claramente asociadas con diversas

enfermedades multifactoriales. Uno de estos trabajos, desarrollado por el Wellcome Trust Case

Control Consortium (WTCCC), estudió 2.000 muestras de pacientes británicos con una de las siete

enfermedades multifactoriales más comunes (depresión, enfermedad coronaria, enfermedad de Crohn,

hipertensión, artritis reumatoide, diabetes tipo 1 y diabetes tipo 2). Estas cohortes (14.000 individuos en

total) fueron comparadas con 3.000 controles sanos, y en cada uno de los 17.000 individuos se

genotiparon 500.000 SNPs, encontrando asociación significativa con varias regiones del genoma.

A finales de 2010, se habían publicado más de 1.200 estudios de GWAS en todo el mundo, con datos de

asociación para más de 200 enfermedades o rasgos genéticos (el catálogo completo puede consultarse

en http://www.genome.gov/gwastudies/).

CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS 14

Detección de variantes raras de alto riesgo relativo: hacia los genomas

individuales y la medicina genómica.

En cualquier caso, los estudios de asociación sólo detectan variantes genéticas comunes (el alelo de

menor frecuencia está presente en, al menos, el 5% de la población), por lo que su efecto sobre la

enfermedad es –por definición- pequeño (el riesgo de los individuos que lo portan aumenta poco en

relación al riesgo general). Se acepta que deben existir otras variantes más raras (frecuencia menor

al 5%) con mayor efecto fenotípico, que están situadas cerca de las señales de asociación. La detección

de estas variantes, implicadas directamente en el desarrollo de las enfermedades, requerirá la

secuenciación exhaustiva del genoma completo de casos y controles.

Con estas nuevas metodologías, es previsible que en los próximos años se identifiquen las principales

variantes que confieren susceptibilidad a las enfermedades más frecuentes. Por ejemplo, podemos

pensar que en un futuro no muy lejano un paciente hipertenso que acuda a la consulta genética será

estudiado para detectar variantes de predisposición en varios genes, y gracias a los resultados se le

clasificará dentro de un grupo molecular determinado que permitirá asignarle un tratamiento dietético o

farmacológico específico. Desde este punto de vista, el genotipado de polimorfismos concretos puede

convertirse en un análisis de rutina en el diagnóstico de un número creciente de enfermedades humanas

en el próximo decenio.