Математическая статистика, весна 2015: Анализ...

35
Лекция 11. Анализ выживаемости Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2015 Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 1 / 35

Upload: cs-center

Post on 18-Jul-2015

195 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Математическая статистика, весна 2015: Анализ выживаемости

Лекция 11. Анализ выживаемости

Грауэр Л.В., Архипова О.А.

CS Center

Санкт-Петербург, 2015

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 1 / 35

Page 2: Математическая статистика, весна 2015: Анализ выживаемости

Cодержание

Содержание

1 Анализ выживаемости

2 Цензурирование

3 Функция выживаемости и функция риска

4 Оценка функции выживаемости и функции рискаНепараметрические методыПараметрические методы

5 Сравнение двух функций выживаемостиЛогранговый критерийКритерий Гехана

6 Модель Кокса

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 2 / 35

Page 3: Математическая статистика, весна 2015: Анализ выживаемости

Анализ выживаемости

Анализ выживаемости

Пусть T — неотрицательная случайная величина, представляющаясобой время ожидания до наступления некоторого события.Назовем исследуемое событие смертью,время ожидания — "временем выживания".

Продолжительность жизни после операции, начала леченияВозраст при вступлении в брак и продолжительность бракаВремя пребывания в городеВремя пребывания на определенном месте работы

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 3 / 35

Page 4: Математическая статистика, весна 2015: Анализ выживаемости

Анализ выживаемости

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 4 / 35

Page 5: Математическая статистика, весна 2015: Анализ выживаемости

Цензурирование

Цензурирование

Говорят, что имеет место цензурирование, если событие ("смерть") ненаступило до конца исследования.

Пациент все еще живПациент переехал (пропала связь с пациентом)Пациент умер от другой причины (автокатастрофа)

Пусть i — номер наблюдаемого объекта, Ti — время жизни объекта i(непрерывная или дискретная случачная величина), Ui — переменнаяцензурирования.

Xi = min(Ti ,Ui )

— цензурированное время жизни объекта i .

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 5 / 35

Page 6: Математическая статистика, весна 2015: Анализ выживаемости

Цензурирование

Механизмы цензурирования

Фиксированное цензурированиеВыборка из n объектов наблюдается в течение фиксированноговремени τ . Число смертей случайно, но общая продолжительностьисследования фиксирована. Каждый объект имеет максимальновозможный период наблюдения τi , i = 1, . . . , n. Вероятность того,что объект будет жив в конце исследования, равна S(τi ).Случайное цензурированиеВыборка из n объектов наблюдается столько, сколько необходимо,чтобы событие ("смерть") испытали d объектов. Число dфиксировано заранее и его можно использовать в качествепараметра. Однако время исследвания не может быть точноизвестно заранее

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 6 / 35

Page 7: Математическая статистика, весна 2015: Анализ выживаемости

Цензурирование

Направления цензурирования

Правосторонее цензурированиеОбусловлено выбыванием объектов из исследования илиокончанием самого исследованияНаблюдаются Xi = min(Ti ,Ui ) для каждого i и индикатор смертиδi (δi = 1, если Ti ≤ Ui , и δi = 0, если Ti > Ui )Левосторонее цензурированиеОбъект выбыл до начала исследованияНаблюдаются Yi = max(Ti ,Ui ) для каждого i и индикатор смертиδi (δi = 1, если Ti ≤ Ui , и δi = 0, если Ti > Ui

Интервальное цензурированиеНаблюдаются (Li ,Ri ) такие, что Ti ∈ (Li ,Ri )

Далее будем рассматривать только правостороннее цензурирование.

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 7 / 35

Page 8: Математическая статистика, весна 2015: Анализ выживаемости

Цензурирование

Независимое (неинформативное) цензурированиеUi не зависит от Ti

Конец исследования запланирован заранее (оговорены точныесроки, например, 2 года), случайное выбывание объекта (авария)Информативное цензурированиеРаспределение Ui зависит от каких-либо параметров,определяющих распределение Ti

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 8 / 35

Page 9: Математическая статистика, весна 2015: Анализ выживаемости

Функция выживаемости и функция риска

Функция выживаемости и функция риска

Пусть T — непрерывная случайная величина с плотностьюраспределения f (t) и функцией распределения F (t) = P{T ≤ t}.Рассмотрим функцию выживаемости (survivor function)

S(t) = P{T > t} = 1− F (t) =

∫ ∞t

f (x)dx (1)

— вероятность того, что исследуемое событие не наступило к моментувремени t.Так как событие ("смерть") не может произойти к моменту 0,S(0) = 1.

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 9 / 35

Page 10: Математическая статистика, весна 2015: Анализ выживаемости

Функция выживаемости и функция риска

Рассмотрим функцию риска (hazard function) — мгновеннуюинтенсивность осуществления события, —

λ(t) = limdt→0

P{t < T ≤ t + dt|T > t}dt

=f (t)dt

S(t)dt=

f (t)

S(t)

Заметим, что −f (t) = S ′(t), тогда

λ(t) = − d

dtlnS(t),

S(t) = exp

{−∫ t

0λ(x)dx

}.

Кумулятивный риск

Λ(t) =

∫ t

0λ(x)dx = − lnS(t)

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 10 / 35

Page 11: Математическая статистика, весна 2015: Анализ выживаемости

Функция выживаемости и функция риска

Функция рискаПостоянная: λ(t) ≡ C , когда Λ(t) = Ct и S(t) = e−Ct :продолжительность жизни при наличии хронического заболеванияВозрастающая: старение после 65Убывающая: продолжительнсоть жизни после операцииВаннообразная: летальность, зависящая от возраста

Функция выживаемости Функция риска

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 11 / 35

Page 12: Математическая статистика, весна 2015: Анализ выживаемости

Функция выживаемости и функция риска

Характеристики положения продолжительности жизни

Ожидаемая продолжительность жизни

µ =

∫ ∞0

tf (t)dt.

Медиана продолжительности жизни— τ такое, что S(τ) = 0.5На практике медиана не всегда достигается. В этом случае выюбираютнаименьшее τ , для которого S(τ) ≤ 0.5

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 12 / 35

Page 13: Математическая статистика, весна 2015: Анализ выживаемости

Оценка функции выживаемости и функции риска

Оценка функции выживаемости и функции риска

Оценить функцию выживаемости/риска можно одним из двухспособов

установив параметрическую модель λ(t), основываясь наконкретной плотности распределения f (t)

воспользовавшись эмпирическими оценками функции выживания(непараметрические методы)

Если цензурирование отсутствует, в качестве оценки функциивыживания S(t) можно взять долю объектов со временем жизни,большим t.Если цензурирование есть, оценка S(t) является плохой оценкойистинной функции выживания S(t).

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 13 / 35

Page 14: Математическая статистика, весна 2015: Анализ выживаемости

Оценка функции выживаемости и функции риска Непараметрические методы

Непараметрические методы

Рассмотрим следующие непараметрические методы оценки функциивыживанаия S(t)

Оценка Каплана-МейераТаблицы жизниОценка кумулятивной функции риска

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 14 / 35

Page 15: Математическая статистика, весна 2015: Анализ выживаемости

Оценка функции выживаемости и функции риска Непараметрические методы

Оценка Каплана-Мейера

Разобьем временной промежуток исследования на интервалы так,чтобы время каждого события смерти или цензурирования попадалипо возможности в разные интервалы

S(t) = Πj :τj<trj − dj

rj= Πj :τj<t

(1−

djrj

), (2)

гдеτ1, . . . , τk — моменты времени смертей, наблюдаемые в выборкеdj — число смертей в момент τjrj — число объектов, умерших или цензурированных в момент τj илипозже. Справедливы следующие соотношения

rj = rj−1 − dj−1 − cj−1, rj =∑l≥j

(cl + dl),

где cj — число цензурированных объектов в промежутке между jтым и(j + 1)м интервалами. Объекты, цензурированные в момент τjвключаются в cj

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 15 / 35

Page 16: Математическая статистика, весна 2015: Анализ выживаемости

Оценка функции выживаемости и функции риска Непараметрические методы

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 16 / 35

Page 17: Математическая статистика, весна 2015: Анализ выживаемости

Оценка функции выживаемости и функции риска Непараметрические методы

Свойства оценки Каплана-Мейера

В случае отсутствия цензурирования S(t) = S(t)S(t) имеет асимптотическое нормальное распределение.S(t) является асимптотически несмещенной оценкой S(t)Дисперсия S(t) согласно формуле Гринвуда

var(S(t)

)=[S(t)

]2 ∑j :τj<t

dj(rj − dj)rj

Доверительный интервал для S(t)(S(t)− z1−α/2se[S(t)], S(t) + z1−α/2se[S(t)]

)Однако данный подход может приводить к значениям >1 или <0.

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 17 / 35

Page 18: Математическая статистика, весна 2015: Анализ выживаемости

Оценка функции выживаемости и функции риска Непараметрические методы

Предпочтительней подход с переходом к функцииL(t) = log(− log(S(t))) и построением доверительного интрвала дляL(t).Пусть L(t) = log(− log(S(t)))

var(L(t)

)=

1[S(t)

]2

∑j :τj<t

dj(rj − dj)rj

,

тогда доверительный интервал для L(t)(L(t)− z1−α/2se[L(t)], L(t) + z1−α/2se[L(t)]

)и доверительный интервал для S(t)(

S(t)ez1−α/2se(L(t))

, S(t)−ez1−α/2se(L(t))

)

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 18 / 35

Page 19: Математическая статистика, весна 2015: Анализ выживаемости

Оценка функции выживаемости и функции риска Непараметрические методы

Таблицы жизни

Используются для группированных данных и представляют собойтабличное представление информации о функции выжимаемостиобъекта

Разобьем временной промежуток исследования на интервалы[tj−1, tj) — jй интервал, начинаются с t0

cj — число цензурированных объектов в интревале jdj — число "смертей"в интревале jrj — число объектов, пришедших в интревале j

Так как данные сгруппированы, для вычисления оценок необходимоправильно учесть цензурирование:

в начале каждого интревала r ′j = rj − cj

в конце каждого интервала r ′j = rj

в середине интервала r ′j = rj − cj/2

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 19 / 35

Page 20: Математическая статистика, весна 2015: Анализ выживаемости

Оценка функции выживаемости и функции риска Непараметрические методы

Оценка функции выживаемости в момент tj

S(tj) = Πl≤j

(1− dl

r ′l

)Оценка функции риска для jго интервала

λ(tmj) =dj

(tj − tj−1)(r ′j − dj/2),

tmj - центр jго интервала.

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 20 / 35

Page 21: Математическая статистика, весна 2015: Анализ выживаемости

Оценка функции выживаемости и функции риска Непараметрические методы

Оценка кумулятивной функции риска

Для построения оценки кумулятивной функции риска Λ(t) разобьемвременной промежуток исследования на интервалы так, чтобы времякаждого события смерти или цензурирования попадали повозможности в разные интервалы и вычислимdj — число смертей в момент τjrj — число объектов, умерших или цензурированных в момент τj илипозжеОценка Нельсона-Аалена

ΛNA(t) =∑j :τj<t

djrj.

Оценка на основе оценки Каплана-Мейера

ΛKM = − log SKM(t)

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 21 / 35

Page 22: Математическая статистика, весна 2015: Анализ выживаемости

Оценка функции выживаемости и функции риска Параметрические методы

Некоторые параметрические законы выживания

Экспоненциальное распределение

f (t) = ae−at , t ≥ 0,

S(t) = e−at , λ(t) = a, Λ(t) = at

Распределение Вейбулла

f (t) = katk−1e−atk, t ≥ 0,

S(t) = e−atk, λ(t) = katk−1, Λ(t) = atk

Распределение Рэлея

λ(t) = a0 + a1(t)

Лог-нормальноеlogT ∼ нормальное распределение

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 22 / 35

Page 23: Математическая статистика, весна 2015: Анализ выживаемости

Сравнение двух функций выживаемости

Сравнение двух функций выживаемости

Предположим, что мы наблюдаем две группыГруппа 1: (X11, δ11), . . . , (X1n1 , δ1n1)Группа 0: (X01, δ01), . . . , (X0n0 , δ0n0)где Xij — цензурированное время жизни объекта j из группы i ,δij — индикатор смерти объекта j группы i .

Проверяется гипотеза о равенстве функций выживания двух группH0 : S1(t) = S0(t) против альтернативы H1 : S1(t) 6= S0(t)

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 23 / 35

Page 24: Математическая статистика, весна 2015: Анализ выживаемости

Сравнение двух функций выживаемости Логранговый критерий

Логранговый критерий

Логранговый критерий основан на построении таблиц 2х2 в каждыймомент "смерти"и сравнении долей смертей обеих групп с учетомчисла наблюдаемых объектов в соответствующий момент "смерти".

Пусть t1, . . . , tK — K упорядоченных по возрастанию моментовсмерти. В момент tj имеем следующую таблицу 2х2:

Group Die Not Total0 d0j r0j − d0j r0j1 d1j r1j − d1j r1j

Total dj rj − dj rj

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 24 / 35

Page 25: Математическая статистика, весна 2015: Анализ выживаемости

Сравнение двух функций выживаемости Логранговый критерий

Статистика критерия

χ2logrank =

[∑Kj=1(d0j − r0jdj/rj)

]2

∑Kj=1

r1j r0jdj (rj−dj )r2j (rj−1)

(3)

В предположении о независимости всех таблиц, статистика (3) имеетасимптотическое распределение χ2 с 1 степенью свободы.Нулевая гипотеза отклоняется на уровне значимости α, есливыборочное значение статистики χ2

logrank > χ21−α(1)

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 25 / 35

Page 26: Математическая статистика, весна 2015: Анализ выживаемости

Сравнение двух функций выживаемости Критерий Гехана

Критерий Гехана

Критерий Гехана представляет собой обобщение критерия Вилкоксонана случай цензурированных данных.Каждый объект Z0i группы 0 сравнивают с каждым объектом Y1j

группы 1 по времени жизни и вычисляют статистику

Uij = U{Z0i ,Y1j} =

1, если T0i > T1j или X0i ≥ T1j ;0, если T0i = T1j или объект

с наименьшим временем был цензурирован−1, если T0i < T1j или T0i ≤ X1j ;

Статистика критерия

W =

n0∑i=1

n1∑j=1

Uij (4)

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 26 / 35

Page 27: Математическая статистика, весна 2015: Анализ выживаемости

Сравнение двух функций выживаемости Критерий Гехана

При выполнении нулевой гипотезы статистика W имеет среднее,равное 0, и дисперсию равной

var(W ) =n0n1

(n0 + n1)(n0 + n1 − 1)

n0+n1∑i=1

n0+n1∑j=1

Uij

2

При выполнении нулевой гипотезы статистика W√var(W )

имеетасимптотическое стандартное нормальное распределение.

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 27 / 35

Page 28: Математическая статистика, весна 2015: Анализ выживаемости

Сравнение двух функций выживаемости Критерий Гехана

Какой критерий использовать: логранговый или Гехана?Критерий Гехана чувствителен к разнице кривых выживания наранних стадиях. Логранговый критерий — к разнице кривыхвыживания на хвостах.Логранговый критерий наиболее мощен, когда функции рискапропорциональныКритерий Гехана наиболее мощен, когда времена "смерти"в обеихгруппах имеют логнормальное распределение с равнымидисперсиями, но разными мат. ожиданиями.Мощность обоих критериев низка, если кривые выживаемостипересекаются.

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 28 / 35

Page 29: Математическая статистика, весна 2015: Анализ выживаемости

Модель Кокса

Модель Кокса (модель пропорциональных рисков)

Предположим, что функцию риска представима в виде

λ(t) = λ0(t)eβ1z1+...+βkzk , (5)

где λ0(t) — базовая функция риска, зависящая только от времени t,z = (z1, . . . , zk) — вектор факторов модели, характеризующих объектынаблюдений, β = (β1, . . . , βk) — вектор параметров модели.

Пусть S0(t) = e−Λ0(t), где Λ0(t) =∫ t

0 λ0(τ)dτ , тогда

S(t) = S0(t)exp(β1z1+...+βkzk ).

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 29 / 35

Page 30: Математическая статистика, весна 2015: Анализ выживаемости

Модель Кокса

Рассмотрим m объектовO1 = (T1,U1, δ1, z

1), . . . ,Om = (Tm,Um, δm, zm)

Оценки параметров модели β находят методом максимумаправдоподобия.Вероятность того, что среди всех объектов, для которых "смерть"ненаступила до момента Xi , "смерть"наступила в момент Ti именно дляобъекта с номером i , можно оценить отношением

λ(Ti |z i )∑j :Tj≥Ti

λ(Ti |z j)=

exp(β1zi1 + . . .+ βkz

ik)∑

Tj≥Tiexp(β1z

j1 + . . .+ βkz

jk)

Заметим, что цензурирование не зависит от β , тогда функциячастного правдоподобия (аппроксимация Брислоу) будет равна

L(β1, . . . , βk) ∼∏

Oi :δi=1

exp(β1zi1 + . . .+ βkz

ik)∑

Tj≥Tiexp(β1z

j1 + . . .+ βkz

jk), (6)

где произведение берется по всем объектам Oi , для которых смертьнаступила во время эксперимента.

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 30 / 35

Page 31: Математическая статистика, весна 2015: Анализ выживаемости

Модель Кокса

Неизвестным параметром модели также является базовая функцияS0(t).Для любой пары последовательных моментов (Ti−1,Ti ), которыхимели место "смерти функцию S0(t) можно восстановить путемаппроксимации отношения

S(Ti |β1, . . . , βk , zi )

S(Ti−1|β1, . . . , βk , z i )

величиной

1−exp(β1z

i1 + . . .+ βkz

ik)∑

j :Tj>Tiexp(β1z

j1 + . . .+ βkz

jk)

(7)

в предположении, что оценки параметров β уже найдены с помощьюметода максимального правдоподобия

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 31 / 35

Page 32: Математическая статистика, весна 2015: Анализ выживаемости

Модель Кокса

Случай двух выборок

Предположим, что мы наблюдаем две группыГруппа 1: (X11, δ11), . . . , (X1n1 , δ1n1)Группа 0: (X01, δ01), . . . , (X0n0 , δ0n0)где Xij — цензурированное время жизни объекта j из группы i ,δij — индикатор смерти объекта j группы i .

Рассмотрим фактор "группа"z :если объект i из группы 0, zi = 0,если объект j из группы 1, zj = 1, и объединим обе группы в однуобъемом n = n0 + n1.

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 32 / 35

Page 33: Математическая статистика, весна 2015: Анализ выживаемости

Модель Кокса

Построим функцию риска для обеих групп, взяв за основу модельКокса:

λ(t, z) = λ0(t)eβz .

Тогда функция риска группы 0 λ0(t),функция риска группы 1 λ0(t)eβ .Логарифмическая функция частного правдоподобия будет равна

ln L(β) = ln

∏Oj :δj=1

eβzj∑Xl≥Xj

eβzl

.Частная производная U(β) = ∂ ln L(β)

∂β называется "скором"

U(β) =n∑

j=1

δj(zj − Zj), (8)

где

Zj =

∑Xl≥Xj

zleβzl∑

Xl≥Xjeβzl

.

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 33 / 35

Page 34: Математическая статистика, весна 2015: Анализ выживаемости

Модель Кокса

Найдя оценку параметра β можно вычислить оценку отношения рисков

φ =λ1(t)

λ0(t)= eβ

и сравнить риски двух групп.

Доверительный интервал для отношения рисков φ можно построить,взяв за основу доверительный интервал для β и взяв экспоненты отграниц.

Гипотезу H0 : φ = 1 или H ′0 : β = 0 можно проверить с помощьюкритерия Вальда или критерия отношения правдоподобий.

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 34 / 35

Page 35: Математическая статистика, весна 2015: Анализ выживаемости

Модель Кокса

Литература

W. N. Venables, B. D. Ripley. Modern Applied Statistics with S, 2002

John P. Klein, Melvin L. Moeschberger. Survival Analysis Techniques forCensored and Truncated Data, 2003

С.Гланц. Медико-Биологическая Статистика, 1998

Грауэр Л.В., Архипова О.А. (CSC) Анализ выживаемости Санкт-Петербург, 2015 35 / 35