probabilités et biostatistique...test d’indépendance entre deux variables qualitatives (2) etape...

Probabilités et Biostatistique

PCEM1 Pitié-SalpêtrièreA. Mallet et V. Morice

Cours 11 et 12

Tests d’indépendance entre deux variables aléatoires- qualitatives- quantitatives (ch.13-14)

Test d’indépendance entre deux variables qualitatives. χ2 d’indépendance (1)

Contexte. Sur chaque unité statistique peuvent être observées deux variables aléatoires qualitatives X et Y; X a k modalités, Y en a m; on cherche à prouver que ces variables

ne sont pas indépendantessont liées

Exemples.État rénal (présence-absence d’insuffisance rénale) et état hépatique (présence-absence d’insuffisance hépatique) sont liésPerte de connaissance (oui-non) après accident traumatique et survie à 1 mois (oui-non) sont liésCouleur des cheveux et couleur des yeux sont liées

Test d’indépendance entre deux variables qualitatives (2)

Etape 1.

H0: les variables X et Y sont indépendantesH1: les variables X et Y sont liées

car: ->H0: Pr (X=modalité i et Y=modalité l) =Pr (X=modalité i) x Pr (Y=modalité l),ceci pour toutes les couples de modalités i,l

H1: l’une des multiples (k x m) égalités ci-dessus est violée


Etape 2. Une expérience portant sur n unités statistiques est envisagée. Elle produira des effectifs observés, notés oli.

Tableau appelé TABLEAU DE CONTINGENCE

Ces effectifs sont encore aléatoires, Oli.

8

10

3

Noirs

5137marrons101713gris7925bleus

RouxBrunsBlondsY(l)

X(i)

Cheveux (X) Yeux (Y)

Modalité1 (blonds)

Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs)

Modalité 1 (bleus) O11 O12 O13 O14

Modalité 2 (gris) O21 O22 O23 O24

Modalité 3 (marrons) O31 O32 O33 O34

n


Modalité1 (blonds)

Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs) Mélange (total) Répartition (Y « donnée »

Modalité 1 (bleus) 25 9 7 3 44 0,35

Modalité 2 (gris) 13 17 7 10 47 0,38

Modalité 3 (marrons) 7 13 5 8 33 0,27

Mélange (total) 45 39 19 21 (124) Répartition(X) « donnée » 0,36 0,31 0,16 0,17


Modalité1 (blonds)

Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs) Mélange (total) Répartition (Y) « donnée »

Modalité 1 (bleus) 25 9 7 3 44 0,35

Modalité 2 (gris) 13 17 7 10 47 0,38



xA23

H0: Pr (X=modalité i et Y=modalité l) =Pr (X=modalité i) x Pr (Y=modalité l)


Modalité1 (blonds)

Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs) Mélange (total) Répartition (Y) « donnée »

Modalité 1 (bleus) 25 9 7 3 44 0,35

Modalité 2 (gris) 13 17 7 10 47 0,38



x7,2

7,2

x/

Calcul plus rapide

Cheveux (X)

Yeux (Y)

Modalité1(blonds)

Modalité2(bruns)

Modalité3(roux)

Modalité4(noirs)

Mélange (total)

Répartition (Y)« donnée »

Modalité 1(bleus) 25 9 7 3 44 0,35

Modalité 2(gris) 13 17 7 10 47 0,38

Modalité 3(marrons) 7 13 5 8 33 0,27

Mélange(total) 45 39 19 21 (124)Répartition(X)« donnée » 0,36 0,31 0,16 0,17


Etape 2. Suite.Paramètre:

Sous H0,

Conditions de validité à vérifier: tous les aj > 5

A

)A(O Q

du tableau cases de nombre

1j j

2jj∑

=

−=

∑ −=colonnes leslignes les li

2lili : encoresoit

A)A(O Q

))1)(1(( Q :soit1))-Y de modalités de (nombre1)-X de modalités de nombre(( Q

2 ~

x2

~

−− mkχχ

Réalisation de Aj


Etape 3. Standard

IP1−α (Q) = [0 K(k-1)(m-1); α ]

Etape 4. Standard.En cas de rejet de H0: ‘les variables ne sont pas indépendantes’

Etapes 5,6. Standards

Tests d’indépendance entre deux variables aléatoires- qualitatives- quantitatives (ch.13-14)

Test d’indépendance entre deux variables quantitatives (1)

Contexte. Sur chaque unité statistique peuvent être observées deux variables aléatoires quantitatives X et Y; on cherche à prouver que ces variables

ne sont pas indépendantessont liées

Exemples précédents.État rénal (présence-absence d’insuffisance rénale) et état hépatique (présence-absence d’insuffisance hépatique) sont liésPerte de connaissance (oui-non) après accident traumatique et survie à 1 mois (oui-non) sont liésCouleur des cheveux et couleur des yeux sont liées

Test d’indépendance entre deux variables quantitatives (2)

Exemples précédents.État rénal (présence-absence d’insuffisance rénale) et état hépatique (présence-absence d’insuffisance hépatique) sont liésPerte de connaissance (oui-non) après accident traumatique et survie à 1 mois (oui-non) sont liésCouleur des cheveux et couleur des yeux sont liées

Exemples actuels.État rénal (niveau de créatininémie) et état hépatique (niveau de bilirubinémie) sont liésDegré de conscience (mesuré sur une échelle quantitative) après accident traumatique et état clinique à 1 mois (mesuré sur une échelle quantitative) sont liés‘Couleur’ des cheveux (longueur d’onde de la lumière réfléchie) et ‘couleur’ des yeux (longueur d’onde de la lumière réfléchie) sont liées

(Test d’)indépendance entre deux variables quantitatives (3)

Concept étudié (comme précédemment).Supposons que X soit d’abord recueillie, puis Y chez l’unité statistique i

liaison: la connaissance de xi modifie ce que l’on attend de Y. Quelque chose comme« Pr(Y=y/X=xi) ≠Pr(Y=y) »indépendance: la connaissance de xi ne modifie pas ce que l’on attend de Y

RemarquesEn fait le point de vue est général: ‘la connaissance de X modifie-t-elle ce que l’on attend de Y ? ’La propriété est symétrique entre X et Y

Indépendance entre deux variables quantitatives (1). Abord graphique

Un échantillon de valeurs a été obtenu:{(xi,yi), i=1,2,…n} sont disponibles

X

XX

X

X

X

X

XXXX

X

XX

X

X

X

X

X

X

XXXXX

X

X

X

X

XX

Dom

aine

de

vale

urs

des

bilir

ubin

émie

s

bilirubinémie (Y)

créatininémie (X)

bilirubinémie (Y)

X

X

X

X

X

X

XX X

X

X

X X

X

X

X

X

X

X

XX

XXX

X

X

X

X

X

XX

x0

Dom

aine

de

vale

urs

des

bilir

ubin

émie

sco

nnai

ssan

t x 0

Pas de liaison apparente


Un échantillon de valeurs a été obtenu:{(xi,yi), i=1,2,…n} sont disponibles

X

XX

X

X

X

X

XXXX

X

XX

X

X

X

X

X

X

XXXXX

X

X

X

X

XX

Dom

aine

de

vale

urs

des

bilir

ubin

émie

s

bilirubinémie

Dom

aine

de

vale

urs

des

bilir

ubin

émie

sco

nnai

ssan

t x 0

Liaison apparente

XX

XX X

X

X

XX

XXX

XX

X X

X

XX

X

X X

XXX XX

X

XX

X

créatininémie

bilirubinémie

x0


Conclusion:

Liaison: propension des points à ne pas emplir l’espace (deux dimensions), mais plutôt à se répartir autour d’une courbe (une dimension)La connaissance de Y, si elle est améliorée par celle de X, l’est:

En localisation (espérance de Y connaissant X)En dispersion (variance de Y connaissant X)

moyenne (variance de Y connaissant X) = variance de Y –moyenne( (espérance de Y connaissant X - espérance de Y)2 )

Se rappeler que les propriétés sont symétriques entre X et Y

Recherche d’un indicateur de liaison (ou non indépendance)

Un indicateur de liaison entre deux variables quantitatives.

RemarqueUne liaison n’est facilement interprétable que si le lien est monotone (courbe sous-jacente croissante ou décroissante)

L’indicateur recherché idéal serait une mesure de l’empâtement du nuage autour d’une courbe: le seul indicateur connu est une mesure de l’empâtement autour d’une droite

x

X X

X

X

X

X

X

X

X

XX

xX XX

XX

x XX

X

X

X

xXX

X

XXx

X

X

X

XX

xX XX

X

Xx

X

XXX

XX

XX

X

X

X

XXXX

Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (1).

Principe de construction à partir des xi,yiDoit exprimer la façon dont xi et yi varient ensemble (on dit ‘covarient’)Doit ne pas dépendre de l’origine choisie pour mesurer X et YDoit ne pas dépendre de l’échelle choisie pour mesurer X et Y

-> on s’intéresse aux:

où mX et mY sont les moyennes observées sX et sY sont les écart-type observés

Remarque: xi grand xri >0; xi petit xri 0; yi petit yri


Nuage des xi, yi

xX XX

X

Xx

X

XXX

XX

XX

X

X

X

XXXX

Nuage des xri, yri

xX XX

X

Xx

X

XXX

XX

XX

X

X

X

XXXX

mX

mY2

2


Si X et Y covarient de façon ‘coordonnée’, alors souvent:

Si X et Y varient dans le même sens: lorsque xi est grand (xri >0), yi l’est aussi (yri >0) et le produit xri.yri est positif.lorsque xi est petit (xri


Pour indicateur observé de covariation ‘coordonnée’, on choisit le nombre:

Propriétésr est toujours compris entre -1 et 1Si r est grand (vers 1), c’est le signe que X et Y covarient dans le même sensSi r est petit (vers -1), c’est le signe que X et Y covarient en sens contraireSi r est voisin de zéro, c’est le signe que X et Y covarient de façon désordonnée; c’est le signe d’une absence de lien entre X et Y

∑=

=n

1iriri .yx1-n

1 r


r s’appelle coefficient de corrélation observéExpressions équivalentes

Le numérateur s’appelle covariance observée

YX

n

1iYXii

YX

n

1iYiXi

ss

)mmyxn1(

1-nn

r

encoreou ss

)m)(ym(x1-n

1

r

∑

∑

=

=

−=

−−=


Autres propriétés de rr∈[-1 1] (déjà dit)r=-1 Y=aX+b, a0|r| décroit

Au fur et à mesure que le caractère rectiligne du nuage se distordAu fur et à mesure que le nuage s’épaissitOn dit que les variables apparaissent de moins en moins corrélées

Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples d’épaississement

r=0,97

-2,5

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

2,5

-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1

Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples

r=0,75

-2,5

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

2,5

-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1


r=0,37

-2,5

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

2,5

-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1


r=0,04

-2,5

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

2,5

-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1

Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples de distorsion

r=-0,97

-2,5

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

2,5

-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1

Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples de distorsion

r=-0,87

-2,5

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

2,5

-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1


r=-0,48

-2,5

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

2,5

-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1

Un indicateur théorique de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire ‘vrai’.

YX

n

1iYXii

YX

n

1iYiXi

ss

)mmyxn1(

1-nn

r encoreou ss

)m)(ym(x1-n

1

r ∑∑

==

−=

−−=

YXYX σσ]E(X).E(Y)[E(XY)r encoreou

σσ]E(Y)))(Y)X(EE[(X r −≈−−≈

YX

n

1iii

YX

n

1iii

σσ

E(X)E(Y))yxn1(

r encoreou σσ

E(Y))E(X))(y(x1-n

1

r ∑∑

==

−≈

−−≈

~1 car n grand

Coefficient de corrélation ‘vrai’, noté ρ

Propriétés du coefficient de corrélation linéaire ‘vrai’.

Propriétés de ρSi X et Y sont indépendantes, alors ρ=0De façon équivalente si ρ≠0, X et Y sont liéesLa réciproque étant fausse, deux variables de coefficient de corrélation nul seront dites non corrélées (et non pas indépendantes nécessairement)

Ces propriétés engagent à tester la nullité de ρpour démontrer la liaison entre X et Y

Test d’égalité à zéro du coefficient de corrélation linéaire ‘vrai’ (1).

Etape 1. H0: ρ=0 : les variables X et Y ne sont pas corréléesH1: ρ≠0 : les variables X et Y sont liées


Etape 2. Paramètre du test

Sous H0, Z a une distribution connue, tabulée, celle du coefficient de corrélation, à (n-2) degrés de libertéCondition de validité: toute combinaison de X et Y du type aX+bY suit une loi normale. Condition connue sous le nom ‘X,Y suivent une loi binormale’

M1-n

n Zrr .YXn

= dont la réalisation sera r

Yn2

Xn2

YnXnX.Yn

S S

)MMM (1-n

n

Z−

=


Etape 3. Intervalle de pari lu dans une table

IP1-α(Ζ) = [-corrα(n-2) corrα(n-2) ]

Etape 4.Décision selon que z (=r, le coefficient de corrélation linéaire observé) ∈ ou ∉ IP0,95(Z)Si rejet de H0: on conclut que ‘X et Y sont liées’, ‘X et Y ne sont pas indépendantes’Si non rejet de H0: ‘on n’a pas montré que X et Y sont liées’

Etapes 5,6. Standards

Remarques générales sur les tests d’hypothèses

La mise en œuvre d’un test suppose de synthétiser le problèmeLe seuil de signification- ou risque de première espèce vaut toujours 0,05On ne conclut jamais que H0 est vraieLe risque de première espèce d’une étude (conclure au moins une fois à tort) augmente si l’on effectue plusieurs tests car à chaque test un tel risque est pris. Risque global:1-(1-α)m (si questions résolues indépendantes)On choisit toujours un test avant recueil des données expérimentales

Cours 12Analyse des durées de survie.Analyse des délais de survenue d’un événement.

Analyse des durées de survie

ContexteOn cherche à quantifier la probabilité qu’ont des (ou a un) patients de survivre au moins un certain temps à compter d’un instant de référence ayant une pertinence dans le contexte de la pathologie étudiée.Exemples

Probabilité qu’un patient présentant un carcinome hépatocellulaire survive au moins 36 mois après la date de diagnosticProbabilité qu’un patient ayant bénéficié d’une hépatectomie survive au moins 10 ans après l’intervention


Remarques1. On s’intéresse souvent à d’autres événements que le décès: ‘probabilité qu’un patient infecté par le VIH présente 7 ans après la date d’infection un taux de CD4 encore supérieur à 400 CD4/ml’ ; on s’intéresse ici au délai d’apparition d’un taux de façon générale on s’intéresse au délai de survenue d’un événement à partir d’un instant de référence


2. Si on souhaite répondre à la question ‘survivre au moins 5 ans’, on souhaite généralement répondre à des questions portant sur des délais plus précoces. Le problème général est donc:‘quelle est la probabilité de survivre au moins une durée t à compter de l’instant de référence ?’

‘quelle est la probabilité que l’événement d’intérêt survienne après la date t à compter de l’instant de référence ?’

Réponse: fonction de survie

Analyse des durées de survie. Fonction de survie.

DéfinitionOn appelle fonction de survie, notée S, la fonction telle que:S(t) = Pr (délai de survenue de l’événement d’intérêt > t)

délai

1

00

Courbe de survie

survie à compter de la naissance- vue par l'INSEE-2006

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 10 20 30 40 50 60 70 80 90 100

Série2

années

Comprendre une fonction de survie (1)

Information directe:S(t) = Pr (durée de survie >t)Notation. T: variable aléatoire durée de survie.

S(t)=Pr(T>t)S(t)=1-Pr(Tτ), notée S(t/τ)

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 5 10 15 20 25 30 35 40 45 50

Série1Série2



Ainsi: si t>τ

Autres façons:mécanique: Pr(T>t / T>τ).Pr(T>τ) =Pr(T>t et T>τ)=Pr(T>t)Intuitive ?. Survivre une durée t c’est survivre une durée τ et survivre une durée t sachant que l’on a survécu une durée τ: S(t)=S(τ).S(t/τ)

) S(τS(t) ) S(t/τ ;

τ)Pr(Tt)Pr(T τ)Tt / Pr(T =

>>

=>>


Autre information indirecte: le risque de décès (ou de survenue de l’événement d’intérêt) à chaque instant t. C’est le risque (probabilité) de décéder juste après t –disons entre t et t+∆t, par unité de temps. En raisonnant comment précédemment:risque (t)= Pr(T∈[t t+∆t]/T>t)/∆t =

Si par exemple ∆t=1 an, on calculera tous les ans (t entier) le risque

c’est la proportion ‘vraie’ de sujets présentant l’événement dans l’année chez ceux qui ne l’ont pas présenté en début d’année

t1 .

S(t)t)S(t-S(t)

tt)t]/T[t tPr(T (t) risque

∆∆+

=∆

>∆+∈=

S(t)1)S(t1 +−


lorsque ∆t devient très petit:

appelé risque instantané de survenue de l’événement. C’est un risque encouru à chaque instant.

S(t)

(t)dtdS

(t) risque−

=

risque de décès-par an- ou taux de mortalitépar âge- INSEE-2005

00,0010,0020,0030,0040,0050,0060,0070,0080,009

0 5 10 15 20 25 30 35 40 45 50 55 60

Série2

années

Les deux problèmes fondamentaux de l’analyse de la durée de survie

Décrire la survenue d’un événement

-> estimer une fonction de survie à partir d’observations

Mesurer une action sur la durée de survie

-> comparer des fonctions de survie à partir d’observations

Le contexte expérimental. Terminologie

Une étude est envisagée; elle a:

Un débutUne fin, appelée date de point

durant cette étude des sujets sont suivis au cours du temps pour observation de la survenue de l’événement d’intérêt; ce suivi a:

Une date de début, différente selon les sujets, appelée date d’origine, c’est l’instant de référence pour ce sujet (ex:date de diagnostic)Une fin, qui peut être:

(1)La date de point et le sujet n’a pas présenté l’événement(2)Une date antérieure sans que le sujet ait encore à cette date présenté l’événement, le sujet est dit perdu de vueUne date antérieure, date de la survenue de l’événement

Dans les cas 1 et 2 on parle d’information censurée

2003 2004 2005 2006

Perdu de vue

Décédé (sujet ayant présenté l’événement)

Date de point

2003 2004 2005 2006 0 1 2 3

Le contexte expérimental. Les données

n sujets ont été suivis, on raisonne en durées comptées à partir de l’instant de référence (ex: instant du diagnostic) Pour le sujet i on dispose, à la date de point, de:

La durée de suivi, tiL’information selon laquelle il a, ou non, présenté l’événement d’intérêt

ExemplestatutDurée suivi

(jours)

Perdu de vu (censuré)

273Sujet 3

décédé352Sujet 2

Vivant (censuré)

412Sujet 1

Estimation d’une fonction de survie.

I. Méthode actuarielle (1).

On estime la fonction de survie à des instants successifs b1, b2, …., br choisis.

La fonction de survie est estimée de proche en proche, en utilisant:S(bi)=S(bi-1).S(bi/bi-1)

L’estimation de S(bi/bi-1) constitue le problème principal

0 b1 b2 b3 b4 b5 durée



Sur l’intervalle [bi-1 bi] on dispose des informations suivantes:

Le nombre de sujets connus vivants à bi-1: Ni .Ces sujets constituent les sujets appelés à risque à bi-1. Le nombre de sujets connus vivants à bi: Ni+1Le nombre de sujets censurés dans l’intervalle [bi-1 bi] (vivants dont le suivi s’arrête dans l’intervalle) : CiLe nombre de sujets décédés dans l’intervalle, Di. On a la relation:Di = Ni– Ni+1- Ci (Ni+1=Ni-Di-Ci)

1 2 3 4

Estimation d’une fonction de survie. I. Méthode actuarielle (3).

1 2 3 4 5




S(bi/bi-1) est estimée par:

On peut utiliser la formule voisine:

2C N

D 1)b/(bŜi

i

i1-ii

−−=

2C N

Ni

i

1i

−

+

Nombre moyen à risque sur l’intervalle


Exemple (b0=0; )

0,4420,7142007023

0,61910209021

0,6190,826201012018

0,7490,931103016012

0,8050,80540102109

11002103

Décédés dans [bi-1 bi] Di

censurésCi

Vivants à bi-1(Ni)

Instantsbi )/b(bŜ 1-ii )(bŜ i

1 (0)Ŝ =


Entre les instants bi, la fonction de survie est interpolée linéairement (segment de droite sur la courbe)

Estimation de la médiane du délai de survenue de l’événement (médiane de survie)Valeur tm telle que

0,5 )(tŜ m =

survie actuarielle

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 3 6 9 12 15 18 21 24 27 30 33 36 39

Série1

survie actuarielle

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 3 6 9 12 15 18 21 24 27 30 33 36 39

Série1

Estimation de la médiane de survie

Estimation d’une fonction de survie. II. Méthode de Kaplan-Meier (1).

Méthode plutôt utilisée pour de faibles effectifsPrincipe. Très voisin du précédent.

Même principe de calculDifférence 1: la survie est supposée constante entre deux instants de décèsDifférence 2: la survie est calculée à tous les instants de décès

Rappel. Pour le sujet i on dispose, à la date de point, de:

La durée de suivi, tiL’information selon laquelle il a, ou non, présenté l’événement d’intérêtNOTATION DE CETTE INFORMATION: si le sujet est censuré, ti est noté ti* ->survie calculée aux ti


Principe (connu)S(ti) = S(ti-1).S(ti/ti-1)Estimation de S(ti/ti-1) par

formule très voisine de la précédenteNi-Ci est le nombre de sujets susceptibles de décéder à la date ti

-> RETENIR

ii

i1-ii CN

D -1 )/t(tŜ−

=

i

i1-ii tà risque à nombre

tàdécès denombre-1 )/t(tŜ =


ExempleValeurs des ti: 6; 6; 6; 6,1*; 7; 9*; 10; 10,1*; 11*; 13; 16; 17*; 19*; 20*; 22; 23; 25*; 32*; 32*; 34*; 35*Fonction de survie à estimer aux instants: 6; 7; 10; 13; 16; 22; 23

0,4480,8331606230,5370,85717310220,6270,90911101116

12151721

à risque à ti

2110

Ci

14161821

Ni

0,6900,9171130,7530,9331100,8070,941170,8570,85736

Diti )t/(tŜ 1-ii )(tŜ i

estimation Kaplan-Meier

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 5 10 15 20 25

estimation Kaplan-Meier

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 5 10 15 20 25

Estimation de la médiane


Estimation de la médiane du délai de survenue de l’événement (médiane de survie)Valeur tm telle que

0,5 )(tŜ m =

Mesure d’une action sur la durée de survie: comparaison de deux fonctions de survie

ExempleOn voudrait faire la preuve qu’un traitement adjuvant à la chirurgie dans le carcinome hépatocellulaireaméliore la survie des patients.

la survie sera comptée à partir de la date de la chirurgie.des patients ont été inclus pendant une année dans une étude qui a duré 3 ans et répartis par tirage au sort dans un des deux groupes de traitement: chirurgie seule ou chirurgie +traitement adjuvant.La durée de suivi des patients (durée de participation à l’étude) varie d’un patient à l’autreà la fin de l’étude on dispose pour chaque patient

Du groupe auquel il a appartenu, A ou BDe tAi ou tBi(si le patient est décédé) ou tAi*ou tBi*(si le patient est censuré, qu’il soit encore vivant ou perdu de vue)

Comparaison de deux fonctions de survie: test du log-rank

Remarque. Pour simplifier l’écriture, NAi et NBidésigneront le nombre de sujets à risque des échantillons issus de A et B à la date ti (et non pas juste après ti-1)

Etape 1. H0: les deux fonctions de survie SA et SB

sont identiques: SA(t) = SB(t) à tout instant

H1: pour au moins une date: SA(t) ≠ SB(t)


Etape 2. Principe: calculer à chaque instant (en fait à chaque instant de décès) un nombre de décès attendus sous l’hypothèse nulle. Paramètre construit sur un exemple

information dans le groupe A (tAi): 1; 1; 2; 2; 3; 4; 4; 5; 5; 8; 8; 8; 8; 11; 11; 12; 12; 15; 17; 22; 23information dans le groupe B (tBi): 6; 6; 6; 6,1*; 7; 9*; 10; 10,1*; 11,2*; 13; 16; 17,3*; 19*; 20*; 22; 23; 25*; 32*; 32*; 34*; 35*

I. Enumérer les instants de décès, ti, tous groupes confondus: 1; 2; 3; 4; 5; 6; 7; 8; 10; 11; 12; 13; 15; 16; 17; 22; 23


II. Remarquer que 1- S(ti/ti-1) exprime le risque pour un sujet vivant à ti-1de décéder entre les instants ti-1 et tiet calculer pour tous les instants tiles estimées de Kaplan-Meier de 1-S(ti/ti-1), en utilisant les données, tous groupes confondus.

0,28623

0,22222

0,07717

0,07116

0,06715

0,06213

0,11112

0,09511

0,04310

0,1438

0,0347

0,0916

0,0575

0,0544

0,0263

0,0502

0,0481

ti )t/(tŜ-1 1-ii

i

i1-ii tà risque à nombre

tàdécèsdenombre )/t(tŜ-1 =


III. Appliquer ce risque aux effectifs à risque de chacun des échantillons à chacun des instants de décès ti ; on obtient des décès attendus sous H0, EAi, EBi

IV. Totaliser les décès totaux attendus par groupe, EA, EB:

1,714

1,555

0,770

0,786

0,732

0,751

1,334

1,240

0,656

2,286

0,578

1,988

1,201

1,136

0,553

1,050

1,000

EBi

0,286

0,445

0,230

0,214

0,268

0,249

0,666

0,760

0,344

1,714

0,408

1,092

0,799

0,864

0,447

0,950

1,000

EAi

0,28623

0,22222

0,07717

0,07116

0,06715

0,06213

0,11112

0,09511

0,04310

0,1438

0,0347

0,0916

0,0575

0,0544

0,0263

0,0502

0,0481

ti )t/(tŜ-1 1-ii

EBEA

19,2610,74

Comparaison de deux fonctions de survie: test du log-rank approché

V. calculer les décès totaux observés,DA, DB: ici, DA=21, DB=9 (EA=10,74; EB=19,26)

Le paramètre s’obtient par:

Sous H0, Q suit une distribution de χ² à 1 degré de liberté

Condition de validité: EA et EB > 5

ici, Qc = 15,26

Etapes 3,4,5,6. Standards

B

2BB

A

2AA

E)E(D

E)E(D Q −+−=

Comparaison de deux fonctions de survie: test du log-rank approché

Etape 3. IP0,95 = [0 3,84]

Etape 4. StandardEn cas de rejet de H0: ‘les fonctions de survie diffèrent’.

Etapes 5,6. Standards.L’orientation du rejet et plus généralement l’interprétation nécessitent l’examen des courbes de survies estimées

probabilités et biostatistique...test d’indépendance entre deux variables qualitatives (2) etape...

Documents