ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович...

26
ОСНОВЫ БИОСТАТИСТИКИ ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Александр Владимирович Рубанович Рубанович зав. лаб. экологической генетики зав. лаб. экологической генетики ИОГен РАН ИОГен РАН [email protected] тел. (499) 132-8958 тел. (499) 132-8958

Upload: kylee

Post on 04-Jan-2016

85 views

Category:

Documents


3 download

DESCRIPTION

ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН [email protected] тел. (499) 132-8958. Темы для обсуждения. Оценка ассоциаций «генотип-фенотип» и их значимости. Факторы, влияющие на значимость оценок. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

ОСНОВЫ БИОСТАТИСТИКИОСНОВЫ БИОСТАТИСТИКИАлександр Владимирович Рубанович Александр Владимирович Рубанович

зав. лаб. экологической генетики ИОГен РАНзав. лаб. экологической генетики ИОГен РАН[email protected]тел. (499) 132-8958тел. (499) 132-8958

Page 2: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Оценка ассоциаций «генотип-фенотип» и их значимости

Факторы, влияющие на значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения

Page 3: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Выявление ассоциаций «генотип-фенотип»:минимальный набор действий

Фенотип - качественный признак (например: «здоровый - больной», «русский - татарин»)

Фенотип - количественный признак (например: вес, содержание кальция, частота аберраций)

Вычисляем OR; значимость по точному тесту Фишера

Вычисляем средние значения признака для разных генотипов; значимость по критерию Манна-Уитни

Кроме этого в обоих случаях можно строить различные регрессионные модели:

Зависимая переменная – признак (фенотип), независимыми переменные – генотипы.Например так: A/A - 0, A/T - 1, T/T - 2

Page 4: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

OR – непременный атрибут «case-control association study» (выявление «генов предрасположенности» к заболеванию

путем сопоставлений частот генотипов у больных и здоровых)

OR – количественная мера предрасположенности (Odd Ratio)

Группа больных Контроль (здоровые)- генотип,

указывающий на предрасположенность

к заболевания

OR = ______________________ Рбольные (1- Рконтроль)

Рконтроль (1- Рбольные)

Рбольные Рконтроль>>

OR>1 – генотип связан с болезнью OR=1 – нет связи между генотипом и болезньюOR<1 – протективный генотип

OR показывает во сколько раз повышена вероятность заболеть для носителя «плохого» генотипа

Page 5: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Soft для вычисления OR и проведения матаисследований

WinPepi Portal (2010) - computer programs for epidemiologists

Free!

30 дней

Page 6: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Статистический анализ сопряженности генотипов и количественных признаков

0.00

0.01

0.002

0.03

0.04

Час

тота

абе

ррац

ий х

ром

осом

A/G G/GA/A +

Рецессивная модель

+

Доминантная модель

Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту (не по Стьюденту!)

Гомозигота по мажорному аллелю

Гомозигота по минорному аллелю

Обычно стараются рассмотреть две группы

Page 7: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

0

10

20

30

40

50

0 1Частота аберраций на 100 клеток

Час

тота

, %

60

Сравнение частот генотипов для групп с низким (или высоким) значением признака

Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту (не по Стьюденту!)

0

10

20

30

40

50

0-1 1-2 2-3 3-4 4-5 5-6 >6

Частота аберраций на 100 клеток

Час

тота

, %,

Группа людей с нулевым уровнем

аберраций

A/A

A/G

G/G

A/A

A/G

G/G

Статистический анализ сопряженности генотипов и количественных признаков

Далее вычисляется OR и значимость по точному критерию Фишера.

В данном примере риск возникновения аберраций у носителей минорного аллеля G

равен OR=2,1 и р=0,015

Page 8: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Сравнение частот генотипов для групп с низким (или высоким) значением признака

Логистическая и пуассоновская регрессии

nn xaxaaep ...110

nn xaxaep

...111

1р – частота аберрацийxi – генотип i-го локусааi – коэф. регрессии

Нелинейные многомерные регрессии, реализованные в пакетах Statistica и SPSS

Для логиcтической регрессии ai =ln(ORi)

Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту (не по Стьюденту!)

Статистический анализ сопряженности генотипов и количественных признаков

Зависимая переменная – признак (р), независимыми переменные – генотипы (xi).

Например так: A/A - 0, A/T - 1, T/T - 2

Page 9: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

X. Sole, E. Guino, J. Valls, R. Iniesta1, V. Moreno (2006) http://bioinfo.iconcologia.net/index.php?module=Snpstats

Soft для работы с генотипами и гаплотипами

http://www.bios.unc.edu/~lin/hapstat/

WinStat for Excel

Free!

Free!

Page 10: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Оценка ассоциаций «генотип-фенотип» и их значимости

Факторы, влияющие на значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения

Page 11: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Чуть-чуть об ошибках статистических тестов

Ошибка I рода () Вероятность отвергнуть правильную нулевую гипотезу = Вероятность обнаружить различия там, где их нет = Вероятность совершить фальшивое открытие

Ошибка II рода ()Вероятность принять неправильную нулевую гипотезу = Вероятность не обнаружить существующие различия = Вероятность упустить открытие

Мощность теста = 1- Ошибка II рода = Вероятность правильно отвергнуть нулевую гипотезуВероятность не упустить открытие

Нулевая гипотеза – обычно предположение об отсутствии различий = 2 выборки из одной генеральной совокупности

Традиционно биолог ориентирован на контроль ошибки I рода (через уровень значимости),

т.е. на гарантии отсутствия ложных открытий,

… и при этом мало заботится о возможности упустить открытие (ошибка II рода)

Page 12: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

От чего зависят ошибки статистических тестов?

От размаха реально существующих отличий и разброса данных

От объемов выборок

Ошибки I и II рода однозначно не связаны. В целом ошибка II рода растет при уменьшении ошибки I рода

С увеличением объема выборки мощность теста (вероятность не упустить открытие)

всегда возрастает

Крайний случай: «критерий» св. Фомы Неверующего (0033) Ошибка I рода = 0 Ошибка II рода = 1

Ошибка I рода (вероятность фальшивого открытия) слабо зависит от объемов выборок,если они сравнимы по величине

Page 13: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

0

2

4

6

8

10

12

14

16

18

20

22

24

0 2 4 6 8 10 12Число событий в контроле

Чи

сло

собы

тий

в о

пы

те

Фишер

u-тест

Хи-квадрат

Число Число событий в событий в контролеконтроле

Минимальное число событий в опыте Минимальное число событий в опыте при значимом отличии от контроляпри значимом отличии от контроля

СтьюдентСтьюдент 22 ФишерФишер

00 22 44 55

11 66 77 77

22 88 99 99

33 1010 1111 1010

44 1212 1212 1212

55 1313 1313 1313

66 1515 1515 1515

77 1616 1616 1616

88 1818 1818 1818

99 1919 1919 1919

1010 2121 2121 2020

2020 3535 3535 3333

3030 4747 4747 4646

Сравнение частот при уровне значимости 0.05 Объемы выборок в опыте и контроле одинаковы

Если в контроле нет мутаций, то при значимости отличий в опыте их

должно быть

больше 5 независимо от объемов выборок

(100 или 1000)

Page 14: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Оценка ассоциаций «генотип-фенотип» и их значимости

Факторы, влияющие на значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения

Page 15: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Проверка однородности материала и вычисление OR для нескольких выборок

ii

ii

N

np

Объем Объем выборкивыборки

Число Число мутациймутаций

ЧастотаЧастота

NN11 nn11 pp11

NN22 nn22 pp22

…….. …….. ……..

NNkk nnkk ppkk

Выборки можно объединять, если

Можно ли объединить k независимых выборок и оценить частоту как

Индекс рассеяния для биномиальных выборок

Mantel-Haenszel test

Page 16: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Mantel-Haenszel test

Вычисление OR для совокупности выборок

Значимость гетерогенности

выборок

Page 17: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

частота гетерозигот в выборках HIV+ и HIV- по данным различных авторов

0,0%

5,0%

10,0%

15,0%

20,0%

25,0%

30,0%

Mey

er e

t al.,

199

7

Zim

mer

man

et a

l.,19

97

Zim

mer

man

et a

l.,19

97

Rui

z et

al.,

200

1

Phi

llpot

et a

l., 2

003

Rei

che

et a

l., 2

008

Bal

otta

et a

l., 1

997

Oh

et a

l., 2

008

Liu

et a

l., 2

004

Bog

ner

et a

l., 2

004

Sam

son

et a

l., 1

996

Ste

war

t et a

l., 1

997

Bar

ber

et a

l., 2

001

Zim

mer

man

et a

l.,19

97

Vis

co-C

oman

dini

et

al.,

1998

Par

czew

ski e

t al.,

2009

Ado

jaan

et a

l.,20

07

Eug

en-O

lsen

et a

l.,19

97

HIV+

HIV-

Объединение выборок с незначимыми эффектами

Если ассоциации нет, то случаи «больше-меньше» должны появляться с вероятностью ½

Только в 3 выборках из 18 частота

гетерозигот w/d у HIV+ выше, чем у HIV-

0038.02

1

2

1

2

1

2

118

018

18118

182

18

18318

CCCCp

Вероятность выпадения 3 (и менее) орлов в 18 бросаниях монеты равна

Если это принять за 4-ое превышение, то р=0.015

Монета достоверно несимметрична! Гетерозиготы w/d чаще встречаются среди HIV-

Но какое OR?

Page 18: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Mantel-Haenszel test with WinPepi: результаты

Мета-анализ OR RR = f+ / f- f = f- - f+

Mantel-Haenszel оценка 0.87 (1.15) 0.887 0.016 Unadjusted оценка(по всем данным) 0.78 0.801 0.027

95%-довер. интервал 0.77 - 0.97 0.81 - 0.98 0.007-0.023Значимость

гетерогенности (р) 0.131 0.236 0.451

Число «null»-статей (OR=1) для ликвидации значимости 7 2 -

Значимость корреляции объемов выборок

и эффектов (д.б. > 0.1 )

0.188 (Regression asymmetry test, Egger)

0.211 (Adjusted rank correlation, Begg&Mazumdar):

Итоговая значимость различий(Fisher’s two-tailed)

0.014

Протективное действие гетерозиготы w/d CCR5 достоверно, но не велико: OR=1.15

Page 19: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Оценка ассоциаций «генотип-фенотип» и их значимости

Факторы, влияющие на значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения

Page 20: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Генерируем две одинаково распределенные выборки по 100 особей с 20-локусными генотипами

gencase gencontrol ORreal p1 6 7 0.85 0.7822 12 9 1.4 0.5133 8 7 1.2 0.7964 9 9 1.0 1.005 9 9 1.0 1.006 9 11 0.80 0.6557 10 10 1.0 1.008 8 11 0.70 0.4919 8 9 0.88 0.80810 7 14 0.46 0.12711 12 9 1.4 0.51312 8 10 0.78 0.63713 12 10 1.2 0.67014 10 10 1.0 1.0015 7 6 1.2 0.78216 12 11 1.1 0.83517 10 9 1.1 0.81918 11 9 1.2 0.65519 13 10 1.3 0.53220 7 5 1.4 0.564

gencase gencontrol ORreal p1 14 7 2.2 0.1272 12 5 2.6 0.08963 15 14 1.1 0.8534 8 12 0.64 0.3715 5 8 0.61 0.4056 9 10 0.89 0.8197 7 6 1.2 0.7828 10 12 0.81 0.6709 12 9 1.4 0.51310 10 12 0.81 0.67011 12 12 1.0 1.0012 14 9 1.6 0.29713 15 7 2.3 0.088114 7 9 0.76 0.61715 6 6 1.0 1.0016 9 10 0.89 0.81917 11 7 1.6 0.34618 8 7 1.2 0.79619 15 13 1.2 0.70520 11 6 1.9 0.225

gencase gencontrol ORreal p1 10 9 1.1 0.8192 12 10 1.2 0.6703 12 13 0.91 0.8414 10 16 0.58 0.2395 11 13 0.83 0.6836 13 13 1.0 1.007 12 4 3.3 0.04558 12 8 1.6 0.3719 13 12 1.1 0.84110 14 11 1.3 0.54911 17 10 1.8 0.17812 9 5 1.9 0.28513 8 9 0.88 0.80814 15 9 1.8 0.22115 11 9 1.2 0.65516 9 16 0.52 0.16217 10 14 0.68 0.41418 11 10 1.1 0.82719 10 10 1.0 1.0020 11 6 1.9 0.225

gencase gencontrol ORreal p1 7 8 0.87 0.7962 10 2 5.4 0.02093 17 5 3.9 0.01054 13 12 1.1 0.8415 12 11 1.1 0.8356 7 10 0.68 0.4677 10 12 0.81 0.6708 14 9 1.6 0.2979 14 8 1.9 0.20110 9 12 0.73 0.51311 13 9 1.5 0.39412 9 14 0.61 0.29713 10 13 0.74 0.53214 8 8 1.0 1.0015 14 12 1.2 0.69516 17 7 2.7 0.041217 11 13 0.83 0.68318 10 8 1.3 0.63719 16 10 1.7 0.23920 12 8 1.6 0.371

Как это бывает? Наблюдаем появление фальшивых ассоциаций

OR p Ген Выборка 1 Выборка 2Больные Здоровые

1

Должно бытьOR=1

Значимо!

234Сразу 3 локуса

«ассоциированы» с заболеваемостью!

Частоты минорых аллелей (в среднем 0.1)

Page 21: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Как избежать фальшивых открытий?

Правило Карло Бонферрони (1935):При проведение m независимых статистических тестовзначимы только те результаты, для которых

False Discovery Rate control: FDR - контроль

Permutation test (компьютерная перестановка лэйблов «case-control»)

Page 22: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

0

0,2

0,4

0,6

0,8

0 5 10 15 20Число тестов

Ош

ибк

а II

род

а

Зависимость ошибки II рода от числа тестов (SNP) при использовании поправки Бонферрони

Вероятность пропустить ген с OR=2.7 на выборках 100 (case) и 100 (control)

При 100 сравнениях ради того, чтобы гарантировать отсутствие хотя бы одного

ложного результата, мы упускаем 88% открытий!

При m=100 ошибка равна 0.88

1

В отдельном тесте вероятность упустить открытие равна 0.2

При 5 сравнениях упускаем 50% открытий

Page 23: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Новый принцип проверки статистических гипотез: FDR-контроль

False Discovery Rate control: Benjamini, Hochberg (1995)

Вероятность хотя бы одного фальшивого открытия < Уровня значимости

Ошибка I рода < 0.05

Средняя доля фальшивых открытий < Выбранный уровень

Традиционный принцип заменяется на 105 статей в базе

Page 24: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Коррекция Bonferroni

0,005

0,005

0,005

0,005

0,005

0,005

0,005

0,005

0,005

0,005

Пример: множественные сравнения по 10 тестам

Коррекция по FDR

0,005

0,010

0,015

0,020

0,025

0,030

0,035

0,040

0,045

0,050

Тест pi

1 0,001

2 0,0055

3 0,01

4 0,015

5 0,02

6 0,04

7 0,3

8 0,5

9 0,6

10 0,8

Значимые различия без поправок на

множественность

Располагаем тесты в порядке увелечения p

Поправка Бонферрони оставляет значимым лишь

первое сравнение

В первой клеткекак у Бонферрони,во второй клетке

вдвое больше,втрое большеи т.д ….

Для 6-ого теста p больше этого значения

Значимые различия после

коррекции по FDR

И это все!!!

Page 25: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

Permutation tests: случайные перестановки пометок «case-control»

в компьютерных симуляциях по алгоритму:

Что делать, еслиЧто делать, если FDR FDR не помогает? не помогает?

В исходной базе данных делаем случайную перестановку В исходной базе данных делаем случайную перестановку

лейблов лейблов case-control

Вычисляем зановоВычисляем заново pp--уровни для каждого гена (уровни для каждого гена (ppperm))

Повторяем процедуру Повторяем процедуру N разраз (минимум 10000), фиксируя (минимум 10000), фиксируя

случаи, когда случаи, когда ppperm меньше исходного значения меньше исходного значения pp Вычисляем откорректированное Вычисляем откорректированное pp как

N

ppp perm

случаев Число

'

Тем самым мы отказываемся от попыток вычислить значимость различий.

Вместо этого мы ее «измеряем» экспериментально, разыгрывая ситуацию на компьютере

Точный тест Фишера – это тоже permutation test, только реализованный аналитически (р вычисляетсяпо формулам комбинаторной теории вероятностей)

Page 26: ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

SNPЧастота минорного

аллеля OR pCase (100) Control (100)

1 62 26 4,6 0,0001

2 19 6 3,7 0,009

3 31 14 2,8 0,011

4 20 8 2,9 0,023

5 11 4 3,0 0,071

6 23 13 2,0 0,096

7 44 30 1,8 0,103

8 54 39 1,8 0,120

9 59 53 1,3 0,571

10 40 41 1,0 0,911

Значимо без коррекции на

множественность

p`

0,000

0,010

0,007

0,025

0,109

0,098

0,058

0,067

0,476

1,000

Permutation test применительно к данным об ассоциации заболеваемости с 10 SNP

Переставляем отметки «case-control» 10000 раз. В результате получаем коррекцию p

Значимо по Бонферрони

Значимо по FDR

Indulgentia Но так бывает не всегда

Совсем маленькая программкаsimNum 10000;

sumDif Table0,LengthfrCase;Dol RandomPermutation2volSample;tot Joinill, health;ill totTakel, volSample;health totTakel, volSample;genCase1 one.ill;

genControl1 one.health;

xiSqgenCase1 genControl12genCase1 genControl1N;p1 1 CDFChiSquareDistribution1, xiSq;sumDif sumDif UnitStepp p1,simNum;

simp sumDifsimNumN;