probabilités et biostatistique...test d’indépendance entre deux variables qualitatives (2) etape...
TRANSCRIPT
-
Probabilités et Biostatistique
PCEM1 Pitié-SalpêtrièreA. Mallet et V. Morice
Cours 11 et 12
-
Tests d’indépendance entre deux variables aléatoires- qualitatives- quantitatives (ch.13-14)
-
Test d’indépendance entre deux variables qualitatives. χ2 d’indépendance (1)
Contexte. Sur chaque unité statistique peuvent être observées deux variables aléatoires qualitatives X et Y; X a k modalités, Y en a m; on cherche à prouver que ces variables
ne sont pas indépendantessont liées
Exemples.État rénal (présence-absence d’insuffisance rénale) et état hépatique (présence-absence d’insuffisance hépatique) sont liésPerte de connaissance (oui-non) après accident traumatique et survie à 1 mois (oui-non) sont liésCouleur des cheveux et couleur des yeux sont liées
-
Test d’indépendance entre deux variables qualitatives (2)
Etape 1.
H0: les variables X et Y sont indépendantesH1: les variables X et Y sont liées
car: ->H0: Pr (X=modalité i et Y=modalité l) =Pr (X=modalité i) x Pr (Y=modalité l),ceci pour toutes les couples de modalités i,l
H1: l’une des multiples (k x m) égalités ci-dessus est violée
-
Test d’indépendance entre deux variables qualitatives (3)
Etape 2. Une expérience portant sur n unités statistiques est envisagée. Elle produira des effectifs observés, notés oli.
Tableau appelé TABLEAU DE CONTINGENCE
Ces effectifs sont encore aléatoires, Oli.
8
10
3
Noirs
5137marrons101713gris7925bleus
RouxBrunsBlondsY(l)
X(i)
-
Cheveux (X) Yeux (Y)
Modalité1 (blonds)
Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs)
Modalité 1 (bleus) O11 O12 O13 O14
Modalité 2 (gris) O21 O22 O23 O24
Modalité 3 (marrons) O31 O32 O33 O34
n
-
Cheveux (X) Yeux (Y)
Modalité1 (blonds)
Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs) Mélange (total) Répartition (Y « donnée »
Modalité 1 (bleus) 25 9 7 3 44 0,35
Modalité 2 (gris) 13 17 7 10 47 0,38
Modalité 3 (marrons) 7 13 5 8 33 0,27
Mélange (total) 45 39 19 21 (124) Répartition(X) « donnée » 0,36 0,31 0,16 0,17
-
Cheveux (X) Yeux (Y)
Modalité1 (blonds)
Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs) Mélange (total) Répartition (Y) « donnée »
Modalité 1 (bleus) 25 9 7 3 44 0,35
Modalité 2 (gris) 13 17 7 10 47 0,38
Modalité 3 (marrons) 7 13 5 8 33 0,27
Mélange (total) 45 39 19 21 (124) Répartition(X) « donnée » 0,36 0,31 0,16 0,17
xA23
H0: Pr (X=modalité i et Y=modalité l) =Pr (X=modalité i) x Pr (Y=modalité l)
-
Cheveux (X) Yeux (Y)
Modalité1 (blonds)
Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs) Mélange (total) Répartition (Y) « donnée »
Modalité 1 (bleus) 25 9 7 3 44 0,35
Modalité 2 (gris) 13 17 7 10 47 0,38
Modalité 3 (marrons) 7 13 5 8 33 0,27
Mélange (total) 45 39 19 21 (124) Répartition(X) « donnée » 0,36 0,31 0,16 0,17
x7,2
-
7,2
x/
Calcul plus rapide
Cheveux (X)
Yeux (Y)
Modalité1(blonds)
Modalité2(bruns)
Modalité3(roux)
Modalité4(noirs)
Mélange (total)
Répartition (Y)« donnée »
Modalité 1(bleus) 25 9 7 3 44 0,35
Modalité 2(gris) 13 17 7 10 47 0,38
Modalité 3(marrons) 7 13 5 8 33 0,27
Mélange(total) 45 39 19 21 (124)Répartition(X)« donnée » 0,36 0,31 0,16 0,17
-
Test d’indépendance entre deux variables qualitatives (4)
Etape 2. Suite.Paramètre:
Sous H0,
Conditions de validité à vérifier: tous les aj > 5
A
)A(O Q
du tableau cases de nombre
1j j
2jj∑
=
−=
∑ −=colonnes leslignes les li
2lili : encoresoit
A)A(O Q
))1)(1(( Q :soit1))-Y de modalités de (nombre1)-X de modalités de nombre(( Q
2 ~
x2
~
−− mkχχ
Réalisation de Aj
-
Test d’indépendance entre deux variables qualitatives (5)
Etape 3. Standard
IP1−α (Q) = [0 K(k-1)(m-1); α ]
Etape 4. Standard.En cas de rejet de H0: ‘les variables ne sont pas indépendantes’
Etapes 5,6. Standards
-
Tests d’indépendance entre deux variables aléatoires- qualitatives- quantitatives (ch.13-14)
-
Test d’indépendance entre deux variables quantitatives (1)
Contexte. Sur chaque unité statistique peuvent être observées deux variables aléatoires quantitatives X et Y; on cherche à prouver que ces variables
ne sont pas indépendantessont liées
Exemples précédents.État rénal (présence-absence d’insuffisance rénale) et état hépatique (présence-absence d’insuffisance hépatique) sont liésPerte de connaissance (oui-non) après accident traumatique et survie à 1 mois (oui-non) sont liésCouleur des cheveux et couleur des yeux sont liées
-
Test d’indépendance entre deux variables quantitatives (2)
Exemples précédents.État rénal (présence-absence d’insuffisance rénale) et état hépatique (présence-absence d’insuffisance hépatique) sont liésPerte de connaissance (oui-non) après accident traumatique et survie à 1 mois (oui-non) sont liésCouleur des cheveux et couleur des yeux sont liées
Exemples actuels.État rénal (niveau de créatininémie) et état hépatique (niveau de bilirubinémie) sont liésDegré de conscience (mesuré sur une échelle quantitative) après accident traumatique et état clinique à 1 mois (mesuré sur une échelle quantitative) sont liés‘Couleur’ des cheveux (longueur d’onde de la lumière réfléchie) et ‘couleur’ des yeux (longueur d’onde de la lumière réfléchie) sont liées
-
(Test d’)indépendance entre deux variables quantitatives (3)
Concept étudié (comme précédemment).Supposons que X soit d’abord recueillie, puis Y chez l’unité statistique i
liaison: la connaissance de xi modifie ce que l’on attend de Y. Quelque chose comme« Pr(Y=y/X=xi) ≠Pr(Y=y) »indépendance: la connaissance de xi ne modifie pas ce que l’on attend de Y
RemarquesEn fait le point de vue est général: ‘la connaissance de X modifie-t-elle ce que l’on attend de Y ? ’La propriété est symétrique entre X et Y
-
Indépendance entre deux variables quantitatives (1). Abord graphique
Un échantillon de valeurs a été obtenu:{(xi,yi), i=1,2,…n} sont disponibles
X
XX
X
X
X
X
XXXX
X
XX
X
X
X
X
X
X
XXXXX
X
X
X
X
XX
Dom
aine
de
vale
urs
des
bilir
ubin
émie
s
bilirubinémie (Y)
créatininémie (X)
bilirubinémie (Y)
X
X
X
X
X
X
XX X
X
X
X X
X
X
X
X
X
X
XX
XXX
X
X
X
X
X
XX
x0
Dom
aine
de
vale
urs
des
bilir
ubin
émie
sco
nnai
ssan
t x 0
Pas de liaison apparente
-
Indépendance entre deux variables quantitatives (2). Abord graphique
Un échantillon de valeurs a été obtenu:{(xi,yi), i=1,2,…n} sont disponibles
X
XX
X
X
X
X
XXXX
X
XX
X
X
X
X
X
X
XXXXX
X
X
X
X
XX
Dom
aine
de
vale
urs
des
bilir
ubin
émie
s
bilirubinémie
Dom
aine
de
vale
urs
des
bilir
ubin
émie
sco
nnai
ssan
t x 0
Liaison apparente
XX
XX X
X
X
XX
XXX
XX
X X
X
XX
X
X X
XXX XX
X
XX
X
créatininémie
bilirubinémie
x0
-
Indépendance entre deux variables quantitatives (3). Abord graphique
Conclusion:
Liaison: propension des points à ne pas emplir l’espace (deux dimensions), mais plutôt à se répartir autour d’une courbe (une dimension)La connaissance de Y, si elle est améliorée par celle de X, l’est:
En localisation (espérance de Y connaissant X)En dispersion (variance de Y connaissant X)
moyenne (variance de Y connaissant X) = variance de Y –moyenne( (espérance de Y connaissant X - espérance de Y)2 )
Se rappeler que les propriétés sont symétriques entre X et Y
Recherche d’un indicateur de liaison (ou non indépendance)
-
Un indicateur de liaison entre deux variables quantitatives.
RemarqueUne liaison n’est facilement interprétable que si le lien est monotone (courbe sous-jacente croissante ou décroissante)
L’indicateur recherché idéal serait une mesure de l’empâtement du nuage autour d’une courbe: le seul indicateur connu est une mesure de l’empâtement autour d’une droite
x
X X
X
X
X
X
X
X
X
XX
xX XX
XX
x XX
X
X
X
xXX
X
XXx
X
X
X
XX
xX XX
X
Xx
X
XXX
XX
XX
X
X
X
XXXX
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (1).
Principe de construction à partir des xi,yiDoit exprimer la façon dont xi et yi varient ensemble (on dit ‘covarient’)Doit ne pas dépendre de l’origine choisie pour mesurer X et YDoit ne pas dépendre de l’échelle choisie pour mesurer X et Y
-> on s’intéresse aux:
où mX et mY sont les moyennes observées sX et sY sont les écart-type observés
Remarque: xi grand xri >0; xi petit xri 0; yi petit yri
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (2).
Nuage des xi, yi
xX XX
X
Xx
X
XXX
XX
XX
X
X
X
XXXX
Nuage des xri, yri
xX XX
X
Xx
X
XXX
XX
XX
X
X
X
XXXX
mX
mY2
2
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (3).
Si X et Y covarient de façon ‘coordonnée’, alors souvent:
Si X et Y varient dans le même sens: lorsque xi est grand (xri >0), yi l’est aussi (yri >0) et le produit xri.yri est positif.lorsque xi est petit (xri
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (4).
Pour indicateur observé de covariation ‘coordonnée’, on choisit le nombre:
Propriétésr est toujours compris entre -1 et 1Si r est grand (vers 1), c’est le signe que X et Y covarient dans le même sensSi r est petit (vers -1), c’est le signe que X et Y covarient en sens contraireSi r est voisin de zéro, c’est le signe que X et Y covarient de façon désordonnée; c’est le signe d’une absence de lien entre X et Y
∑=
=n
1iriri .yx1-n
1 r
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (5).
r s’appelle coefficient de corrélation observéExpressions équivalentes
Le numérateur s’appelle covariance observée
YX
n
1iYXii
YX
n
1iYiXi
ss
)mmyxn1(
1-nn
r
encoreou ss
)m)(ym(x1-n
1
r
∑
∑
=
=
−=
−−=
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (6).
Autres propriétés de rr∈[-1 1] (déjà dit)r=-1 Y=aX+b, a0|r| décroit
Au fur et à mesure que le caractère rectiligne du nuage se distordAu fur et à mesure que le nuage s’épaissitOn dit que les variables apparaissent de moins en moins corrélées
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples d’épaississement
r=0,97
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples
r=0,75
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples
r=0,37
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples
r=0,04
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples de distorsion
r=-0,97
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples de distorsion
r=-0,87
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1
-
Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples
r=-0,48
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1
-
Un indicateur théorique de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire ‘vrai’.
YX
n
1iYXii
YX
n
1iYiXi
ss
)mmyxn1(
1-nn
r encoreou ss
)m)(ym(x1-n
1
r ∑∑
==
−=
−−=
YXYX σσ]E(X).E(Y)[E(XY)r encoreou
σσ]E(Y)))(Y)X(EE[(X r −≈−−≈
YX
n
1iii
YX
n
1iii
σσ
E(X)E(Y))yxn1(
r encoreou σσ
E(Y))E(X))(y(x1-n
1
r ∑∑
==
−≈
−−≈
~1 car n grand
Coefficient de corrélation ‘vrai’, noté ρ
-
Propriétés du coefficient de corrélation linéaire ‘vrai’.
Propriétés de ρSi X et Y sont indépendantes, alors ρ=0De façon équivalente si ρ≠0, X et Y sont liéesLa réciproque étant fausse, deux variables de coefficient de corrélation nul seront dites non corrélées (et non pas indépendantes nécessairement)
Ces propriétés engagent à tester la nullité de ρpour démontrer la liaison entre X et Y
-
Test d’égalité à zéro du coefficient de corrélation linéaire ‘vrai’ (1).
Etape 1. H0: ρ=0 : les variables X et Y ne sont pas corréléesH1: ρ≠0 : les variables X et Y sont liées
-
Test d’égalité à zéro du coefficient de corrélation linéaire ‘vrai’ (2).
Etape 2. Paramètre du test
Sous H0, Z a une distribution connue, tabulée, celle du coefficient de corrélation, à (n-2) degrés de libertéCondition de validité: toute combinaison de X et Y du type aX+bY suit une loi normale. Condition connue sous le nom ‘X,Y suivent une loi binormale’
M1-n
n Zrr .YXn
= dont la réalisation sera r
Yn2
Xn2
YnXnX.Yn
S S
)MMM (1-n
n
Z−
=
-
Test d’égalité à zéro du coefficient de corrélation linéaire ‘vrai’ (3).
Etape 3. Intervalle de pari lu dans une table
IP1-α(Ζ) = [-corrα(n-2) corrα(n-2) ]
Etape 4.Décision selon que z (=r, le coefficient de corrélation linéaire observé) ∈ ou ∉ IP0,95(Z)Si rejet de H0: on conclut que ‘X et Y sont liées’, ‘X et Y ne sont pas indépendantes’Si non rejet de H0: ‘on n’a pas montré que X et Y sont liées’
Etapes 5,6. Standards
-
Remarques générales sur les tests d’hypothèses
La mise en œuvre d’un test suppose de synthétiser le problèmeLe seuil de signification- ou risque de première espèce vaut toujours 0,05On ne conclut jamais que H0 est vraieLe risque de première espèce d’une étude (conclure au moins une fois à tort) augmente si l’on effectue plusieurs tests car à chaque test un tel risque est pris. Risque global:1-(1-α)m (si questions résolues indépendantes)On choisit toujours un test avant recueil des données expérimentales
-
Cours 12Analyse des durées de survie.Analyse des délais de survenue d’un événement.
-
Analyse des durées de survie
ContexteOn cherche à quantifier la probabilité qu’ont des (ou a un) patients de survivre au moins un certain temps à compter d’un instant de référence ayant une pertinence dans le contexte de la pathologie étudiée.Exemples
Probabilité qu’un patient présentant un carcinome hépatocellulaire survive au moins 36 mois après la date de diagnosticProbabilité qu’un patient ayant bénéficié d’une hépatectomie survive au moins 10 ans après l’intervention
-
Analyse des durées de survie
Remarques1. On s’intéresse souvent à d’autres événements que le décès: ‘probabilité qu’un patient infecté par le VIH présente 7 ans après la date d’infection un taux de CD4 encore supérieur à 400 CD4/ml’ ; on s’intéresse ici au délai d’apparition d’un taux de façon générale on s’intéresse au délai de survenue d’un événement à partir d’un instant de référence
-
Analyse des durées de survie
2. Si on souhaite répondre à la question ‘survivre au moins 5 ans’, on souhaite généralement répondre à des questions portant sur des délais plus précoces. Le problème général est donc:‘quelle est la probabilité de survivre au moins une durée t à compter de l’instant de référence ?’
‘quelle est la probabilité que l’événement d’intérêt survienne après la date t à compter de l’instant de référence ?’
Réponse: fonction de survie
-
Analyse des durées de survie. Fonction de survie.
DéfinitionOn appelle fonction de survie, notée S, la fonction telle que:S(t) = Pr (délai de survenue de l’événement d’intérêt > t)
délai
1
00
Courbe de survie
-
survie à compter de la naissance- vue par l'INSEE-2006
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 10 20 30 40 50 60 70 80 90 100
Série2
années
-
Comprendre une fonction de survie (1)
Information directe:S(t) = Pr (durée de survie >t)Notation. T: variable aléatoire durée de survie.
S(t)=Pr(T>t)S(t)=1-Pr(Tτ), notée S(t/τ)
-
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 5 10 15 20 25 30 35 40 45 50
Série1Série2
Comprendre une fonction de survie (2)
-
Comprendre une fonction de survie (3)
Ainsi: si t>τ
Autres façons:mécanique: Pr(T>t / T>τ).Pr(T>τ) =Pr(T>t et T>τ)=Pr(T>t)Intuitive ?. Survivre une durée t c’est survivre une durée τ et survivre une durée t sachant que l’on a survécu une durée τ: S(t)=S(τ).S(t/τ)
) S(τS(t) ) S(t/τ ;
τ)Pr(Tt)Pr(T τ)Tt / Pr(T =
>>
=>>
-
Comprendre une fonction de survie (4)
Autre information indirecte: le risque de décès (ou de survenue de l’événement d’intérêt) à chaque instant t. C’est le risque (probabilité) de décéder juste après t –disons entre t et t+∆t, par unité de temps. En raisonnant comment précédemment:risque (t)= Pr(T∈[t t+∆t]/T>t)/∆t =
Si par exemple ∆t=1 an, on calculera tous les ans (t entier) le risque
c’est la proportion ‘vraie’ de sujets présentant l’événement dans l’année chez ceux qui ne l’ont pas présenté en début d’année
t1 .
S(t)t)S(t-S(t)
tt)t]/T[t tPr(T (t) risque
∆∆+
=∆
>∆+∈=
S(t)1)S(t1 +−
-
Comprendre une fonction de survie (5)
lorsque ∆t devient très petit:
appelé risque instantané de survenue de l’événement. C’est un risque encouru à chaque instant.
S(t)
(t)dtdS
(t) risque−
=
-
risque de décès-par an- ou taux de mortalitépar âge- INSEE-2005
00,0010,0020,0030,0040,0050,0060,0070,0080,009
0 5 10 15 20 25 30 35 40 45 50 55 60
Série2
années
-
Les deux problèmes fondamentaux de l’analyse de la durée de survie
Décrire la survenue d’un événement
-> estimer une fonction de survie à partir d’observations
Mesurer une action sur la durée de survie
-> comparer des fonctions de survie à partir d’observations
-
Le contexte expérimental. Terminologie
Une étude est envisagée; elle a:
Un débutUne fin, appelée date de point
durant cette étude des sujets sont suivis au cours du temps pour observation de la survenue de l’événement d’intérêt; ce suivi a:
Une date de début, différente selon les sujets, appelée date d’origine, c’est l’instant de référence pour ce sujet (ex:date de diagnostic)Une fin, qui peut être:
(1)La date de point et le sujet n’a pas présenté l’événement(2)Une date antérieure sans que le sujet ait encore à cette date présenté l’événement, le sujet est dit perdu de vueUne date antérieure, date de la survenue de l’événement
Dans les cas 1 et 2 on parle d’information censurée
-
2003 2004 2005 2006
Perdu de vue
Décédé (sujet ayant présenté l’événement)
Date de point
-
2003 2004 2005 2006 0 1 2 3
-
Le contexte expérimental. Les données
n sujets ont été suivis, on raisonne en durées comptées à partir de l’instant de référence (ex: instant du diagnostic) Pour le sujet i on dispose, à la date de point, de:
La durée de suivi, tiL’information selon laquelle il a, ou non, présenté l’événement d’intérêt
ExemplestatutDurée suivi
(jours)
Perdu de vu (censuré)
273Sujet 3
décédé352Sujet 2
Vivant (censuré)
412Sujet 1
-
Estimation d’une fonction de survie.
I. Méthode actuarielle (1).
On estime la fonction de survie à des instants successifs b1, b2, …., br choisis.
La fonction de survie est estimée de proche en proche, en utilisant:S(bi)=S(bi-1).S(bi/bi-1)
L’estimation de S(bi/bi-1) constitue le problème principal
0 b1 b2 b3 b4 b5 durée
-
Estimation d’une fonction de survie.
I. Méthode actuarielle (2).
Sur l’intervalle [bi-1 bi] on dispose des informations suivantes:
Le nombre de sujets connus vivants à bi-1: Ni .Ces sujets constituent les sujets appelés à risque à bi-1. Le nombre de sujets connus vivants à bi: Ni+1Le nombre de sujets censurés dans l’intervalle [bi-1 bi] (vivants dont le suivi s’arrête dans l’intervalle) : CiLe nombre de sujets décédés dans l’intervalle, Di. On a la relation:Di = Ni– Ni+1- Ci (Ni+1=Ni-Di-Ci)
-
1 2 3 4
Estimation d’une fonction de survie. I. Méthode actuarielle (3).
-
1 2 3 4 5
Estimation d’une fonction de survie. I. Méthode actuarielle (4).
-
Estimation d’une fonction de survie.
I. Méthode actuarielle (5).
S(bi/bi-1) est estimée par:
On peut utiliser la formule voisine:
2C N
D 1)b/(bŜi
i
i1-ii
−−=
2C N
Ni
i
1i
−
+
Nombre moyen à risque sur l’intervalle
-
Estimation d’une fonction de survie. I. Méthode actuarielle (6).
Exemple (b0=0; )
0,4420,7142007023
0,61910209021
0,6190,826201012018
0,7490,931103016012
0,8050,80540102109
11002103
Décédés dans [bi-1 bi] Di
censurésCi
Vivants à bi-1(Ni)
Instantsbi )/b(bŜ 1-ii )(bŜ i
1 (0)Ŝ =
-
Estimation d’une fonction de survie. I. Méthode actuarielle (7).
Entre les instants bi, la fonction de survie est interpolée linéairement (segment de droite sur la courbe)
Estimation de la médiane du délai de survenue de l’événement (médiane de survie)Valeur tm telle que
0,5 )(tŜ m =
-
survie actuarielle
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 3 6 9 12 15 18 21 24 27 30 33 36 39
Série1
-
survie actuarielle
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 3 6 9 12 15 18 21 24 27 30 33 36 39
Série1
Estimation de la médiane de survie
-
Estimation d’une fonction de survie. II. Méthode de Kaplan-Meier (1).
Méthode plutôt utilisée pour de faibles effectifsPrincipe. Très voisin du précédent.
Même principe de calculDifférence 1: la survie est supposée constante entre deux instants de décèsDifférence 2: la survie est calculée à tous les instants de décès
Rappel. Pour le sujet i on dispose, à la date de point, de:
La durée de suivi, tiL’information selon laquelle il a, ou non, présenté l’événement d’intérêtNOTATION DE CETTE INFORMATION: si le sujet est censuré, ti est noté ti* ->survie calculée aux ti
-
Estimation d’une fonction de survie. II. Méthode de Kaplan-Meier (2).
Principe (connu)S(ti) = S(ti-1).S(ti/ti-1)Estimation de S(ti/ti-1) par
formule très voisine de la précédenteNi-Ci est le nombre de sujets susceptibles de décéder à la date ti
-> RETENIR
ii
i1-ii CN
D -1 )/t(tŜ−
=
i
i1-ii tà risque à nombre
tàdécès denombre-1 )/t(tŜ =
-
Estimation d’une fonction de survie. II. Méthode de Kaplan-Meier (3).
ExempleValeurs des ti: 6; 6; 6; 6,1*; 7; 9*; 10; 10,1*; 11*; 13; 16; 17*; 19*; 20*; 22; 23; 25*; 32*; 32*; 34*; 35*Fonction de survie à estimer aux instants: 6; 7; 10; 13; 16; 22; 23
0,4480,8331606230,5370,85717310220,6270,90911101116
12151721
à risque à ti
2110
Ci
14161821
Ni
0,6900,9171130,7530,9331100,8070,941170,8570,85736
Diti )t/(tŜ 1-ii )(tŜ i
-
estimation Kaplan-Meier
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 5 10 15 20 25
-
estimation Kaplan-Meier
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 5 10 15 20 25
Estimation de la médiane
-
Estimation d’une fonction de survie. II. Méthode de Kaplan-Meier (4).
Estimation de la médiane du délai de survenue de l’événement (médiane de survie)Valeur tm telle que
0,5 )(tŜ m =
-
Mesure d’une action sur la durée de survie: comparaison de deux fonctions de survie
ExempleOn voudrait faire la preuve qu’un traitement adjuvant à la chirurgie dans le carcinome hépatocellulaireaméliore la survie des patients.
la survie sera comptée à partir de la date de la chirurgie.des patients ont été inclus pendant une année dans une étude qui a duré 3 ans et répartis par tirage au sort dans un des deux groupes de traitement: chirurgie seule ou chirurgie +traitement adjuvant.La durée de suivi des patients (durée de participation à l’étude) varie d’un patient à l’autreà la fin de l’étude on dispose pour chaque patient
Du groupe auquel il a appartenu, A ou BDe tAi ou tBi(si le patient est décédé) ou tAi*ou tBi*(si le patient est censuré, qu’il soit encore vivant ou perdu de vue)
-
Comparaison de deux fonctions de survie: test du log-rank
Remarque. Pour simplifier l’écriture, NAi et NBidésigneront le nombre de sujets à risque des échantillons issus de A et B à la date ti (et non pas juste après ti-1)
Etape 1. H0: les deux fonctions de survie SA et SB
sont identiques: SA(t) = SB(t) à tout instant
H1: pour au moins une date: SA(t) ≠ SB(t)
-
Comparaison de deux fonctions de survie: test du log-rank
Etape 2. Principe: calculer à chaque instant (en fait à chaque instant de décès) un nombre de décès attendus sous l’hypothèse nulle. Paramètre construit sur un exemple
information dans le groupe A (tAi): 1; 1; 2; 2; 3; 4; 4; 5; 5; 8; 8; 8; 8; 11; 11; 12; 12; 15; 17; 22; 23information dans le groupe B (tBi): 6; 6; 6; 6,1*; 7; 9*; 10; 10,1*; 11,2*; 13; 16; 17,3*; 19*; 20*; 22; 23; 25*; 32*; 32*; 34*; 35*
I. Enumérer les instants de décès, ti, tous groupes confondus: 1; 2; 3; 4; 5; 6; 7; 8; 10; 11; 12; 13; 15; 16; 17; 22; 23
-
Comparaison de deux fonctions de survie: test du log-rank
II. Remarquer que 1- S(ti/ti-1) exprime le risque pour un sujet vivant à ti-1de décéder entre les instants ti-1 et tiet calculer pour tous les instants tiles estimées de Kaplan-Meier de 1-S(ti/ti-1), en utilisant les données, tous groupes confondus.
0,28623
0,22222
0,07717
0,07116
0,06715
0,06213
0,11112
0,09511
0,04310
0,1438
0,0347
0,0916
0,0575
0,0544
0,0263
0,0502
0,0481
ti )t/(tŜ-1 1-ii
i
i1-ii tà risque à nombre
tàdécèsdenombre )/t(tŜ-1 =
-
Comparaison de deux fonctions de survie: test du log-rank
III. Appliquer ce risque aux effectifs à risque de chacun des échantillons à chacun des instants de décès ti ; on obtient des décès attendus sous H0, EAi, EBi
IV. Totaliser les décès totaux attendus par groupe, EA, EB:
1,714
1,555
0,770
0,786
0,732
0,751
1,334
1,240
0,656
2,286
0,578
1,988
1,201
1,136
0,553
1,050
1,000
EBi
0,286
0,445
0,230
0,214
0,268
0,249
0,666
0,760
0,344
1,714
0,408
1,092
0,799
0,864
0,447
0,950
1,000
EAi
0,28623
0,22222
0,07717
0,07116
0,06715
0,06213
0,11112
0,09511
0,04310
0,1438
0,0347
0,0916
0,0575
0,0544
0,0263
0,0502
0,0481
ti )t/(tŜ-1 1-ii
EBEA
19,2610,74
-
Comparaison de deux fonctions de survie: test du log-rank approché
V. calculer les décès totaux observés,DA, DB: ici, DA=21, DB=9 (EA=10,74; EB=19,26)
Le paramètre s’obtient par:
Sous H0, Q suit une distribution de χ² à 1 degré de liberté
Condition de validité: EA et EB > 5
ici, Qc = 15,26
Etapes 3,4,5,6. Standards
B
2BB
A
2AA
E)E(D
E)E(D Q −+−=
-
Comparaison de deux fonctions de survie: test du log-rank approché
Etape 3. IP0,95 = [0 3,84]
Etape 4. StandardEn cas de rejet de H0: ‘les fonctions de survie diffèrent’.
Etapes 5,6. Standards.L’orientation du rejet et plus généralement l’interprétation nécessitent l’examen des courbes de survies estimées