use and misuse of statistics - ku leuven · use and misuse of statistics: diagnostic tests 25. we...
TRANSCRIPT
![Page 1: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/1.jpg)
Use and misuse of statistics
Diagnostic tests
Geert VerbekeBiostatistical Centre, K.U.Leuven
http://perswww.kuleuven.be/geert verbeke
December 21, 2007
![Page 2: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/2.jpg)
Case study
• Center for Nursing Research, K.U.Leuven. Elderly hipfracture patients
• Research question 1:
Can confusion (CAM) be predictedby MMSE one day after surgery ?
• Research question 2:
What is optimal dichotomization of MMSE topredict confusion ?
Use and misuse of statistics: Diagnostic tests 1
![Page 3: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/3.jpg)
Description of the data
Use and misuse of statistics: Diagnostic tests 2
![Page 4: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/4.jpg)
Research question is twofold
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••
•••••••••••••••••••••••
••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
Do confused and non-confused patientshave different MMSE values ?
If yes, how can MMSE be usedto detect high risk patients ?
Use and misuse of statistics: Diagnostic tests 3
![Page 5: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/5.jpg)
The aim of statistics
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••
•••••••••••••••••••••••
••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
No: Describing the observed data
Yes: Using observed data to draw conclusionsabout the total population
Use and misuse of statistics: Diagnostic tests 4
![Page 6: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/6.jpg)
POPULATION
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
S
A
M
P
L
E
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••RANDOM STATISTICS
MMSE different for confusedand non-confused patients ?
Classification ?
Use and misuse of statistics: Diagnostic tests 5
![Page 7: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/7.jpg)
Comparing MMSE between both groups
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
Confused Not confused
|µ2
|µ1
MMSE
H0 : µ1 = µ2 versus HA : µ1 6= µ2
Use and misuse of statistics: Diagnostic tests 6
![Page 8: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/8.jpg)
p-value and significance
• If both populations were identical, then the observed difference|22.1 − 7.5| = 14.6 would have occurred by pure chance
• Question:
How likely is a difference of 14.6 to happen by pure chance ?
• The probability of observing a difference as large as 14.6, if bothpopulations were the same, equals p < 0.0001.
• A small/large p-value reflects strong/weak evidence in the data infavour of group differences
Use and misuse of statistics: Diagnostic tests 7
![Page 9: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/9.jpg)
• Question:
How small is small ?
• Significance level α:
p < α =⇒ reject H0
p ≥ α =⇒ accept H0
• In biomedical sciences α = 0.05 = 5% is standard
Use and misuse of statistics: Diagnostic tests 8
![Page 10: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/10.jpg)
Errors in decision making
Reality
H0 correct H0 not correct
Test resultAccept H0 No error Type II error
Reject H0 Type I error No error
• Type I error: H0 is incorrectly rejected
• Type II error: H0 is incorrectly accepted
Use and misuse of statistics: Diagnostic tests 9
![Page 11: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/11.jpg)
• Conclusion:
“Statistics can prove everything”
• Intuitively: Absolute certaintyabout population characteristicscannot be attained based on afinite sample of observations
• The probability of making errors can be kept under control, only bytaking sufficient observations: Sample size calculation !
Use and misuse of statistics: Diagnostic tests 10
![Page 12: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/12.jpg)
Implication 1:Multiple testing
• Each time a test is performed, there is some probability of incorrectlyrejecting H0 (type I error)
• Implication:
“The more tests one performs, the higher theprobability that something is detected by pure chance”
• This leads to conclusions that cannot be reproduced by others.
Use and misuse of statistics: Diagnostic tests 11
![Page 13: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/13.jpg)
Example: Amin et al. [1], Table 2
. 18 tests performed
. only 2 significant results
Use and misuse of statistics: Diagnostic tests 12
![Page 14: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/14.jpg)
Example: Sleeping experiment
• This ‘scientific finding’ was printed in the Belgian newspapers:
• It was even stated that those who wake up before 7.21am have astatistically significant higher stress level during the day than those whowake up after 7.21am.
Use and misuse of statistics: Diagnostic tests 13
![Page 15: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/15.jpg)
Implication 2:Negative studies
• In case of a non-significant test result, one often concludes that groupsare identical or equivalent
• If this were correct, the best way to show equivalence would be tocollect as few observations as possible, hereby maximizing the possibilityof making a type II error
• Conclusion:
Non-significance 6= Equivalence
Use and misuse of statistics: Diagnostic tests 14
![Page 16: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/16.jpg)
Shatari et al. [2]
• Title:
Use and misuse of statistics: Diagnostic tests 15
![Page 17: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/17.jpg)
• Table 1:
No significantdifferences !
Use and misuse of statistics: Diagnostic tests 16
![Page 18: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/18.jpg)
• Results and conclusions (abstract):
Use and misuse of statistics: Diagnostic tests 17
![Page 19: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/19.jpg)
Implication 3:Significance versus relevance
• The probability of making an erroneous conclusion decreases with thesample size
• This implies that any difference, no matter how small, will, sooner orlater, be detected, if the sample is sufficiently large.
• Conclusion:
Statistical significance 6= Clinical relevance
Use and misuse of statistics: Diagnostic tests 18
![Page 20: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/20.jpg)
• A highly significant effect can be a large effect:
µ
0
[ ]
95% C.I. p = 0.0001
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
• A highly significant effect can also be a very small effect, but estimatedwith high precision, due to a large sample size:
µ
0
[ ]
95% C.I. p = 0.0001
.
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
..
.
..
.
..
.
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
.
Use and misuse of statistics: Diagnostic tests 19
![Page 21: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/21.jpg)
Back to diagnostic tests
• Since confused and non-confused patients have different MMSE scores(p < 0.0001), there is hope that both groups can be well discriminatedon the basis of MMSE.
• However, are both groups sufficiently ‘separated’ to discriminatebetween them ?
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
Confused Not confused
|µ2
|µ1
................................................................................................................................................................................................................................................................... ........................................ ...........................................................................................................................................................................................................................................................................................................∆
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
Confused Not confused
|µ2
|µ1
..............................................................................................................................................................∆
Use and misuse of statistics: Diagnostic tests 20
![Page 22: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/22.jpg)
Predicted probabilities (log. reg.)
What cut-off value for classification purposes ? 50% ?
Use and misuse of statistics: Diagnostic tests 21
![Page 23: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/23.jpg)
• Predicted probabilities strongly depend on number of confused andnon-confused patients in the current dataset
• Implication of having 10 times more non-confused patients:
• This is problematic in case-control studies
Use and misuse of statistics: Diagnostic tests 22
![Page 24: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/24.jpg)
Solution: Dichotomization of MMSE
MMSE < c =⇒ Confused
MMSE ≥ c =⇒ Not confused
Confusion
YES NO
MMSE valueMMSE < c No error False ⊕
MMSE ≥ c False No error
13 46
What is optimal c ?
Use and misuse of statistics: Diagnostic tests 23
![Page 25: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/25.jpg)
Example: c = 12
Confusion
YES NO
MMSE valueMMSE < 12 9 4
MMSE ≥ 12 4 42
13 46
. Sensitivity: Probability of ⊕ test if confused:9
13= 69.23%
. Specificity: Probability of test if not confused:42
46= 91.30%
Use and misuse of statistics: Diagnostic tests 24
![Page 26: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/26.jpg)
ROC curve
• We can repeat the calculations for all possible c-values
• A good c should yield a high sensitivity
• On the other hand, this should not be done at the expense of classifyingall non-confused patients as confused
• Hence, the specificity should be as large as possible as well
• The ROC curve is a graphical tool to select a c with good sensitivityand specificity
Use and misuse of statistics: Diagnostic tests 25
![Page 27: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/27.jpg)
We can gain a lot in sensitivity, at the expense of a small loss in specificity,by selecting a different cut-off c
Use and misuse of statistics: Diagnostic tests 26
![Page 28: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/28.jpg)
Use and misuse of statistics: Diagnostic tests 27
![Page 29: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/29.jpg)
Confusion
YES NO
MMSE valueMMSE < 16 13 5
MMSE ≥ 16 0 41
13 46
. Sensitivity: Probability of ⊕ test if confused:13
13= 100%
. Specificity: Probability of test if not confused:41
46= 89.13%
Use and misuse of statistics: Diagnostic tests 28
![Page 30: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/30.jpg)
MMSE < 16 ⇐⇒ Probability > 0.21
Use and misuse of statistics: Diagnostic tests 29
![Page 31: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/31.jpg)
ROC for case-control studies
• Sensitivity and specificity do not depend on numbers of cases andcontrols:
Confusion
YES NO
MMSE< 12 9 4
≥ 12 4 42
13 46
Sensitivity: 9/13
Specificity: 42/46
Confusion
YES NO
9 40
4 420
13 460
9/13
420/460
Use and misuse of statistics: Diagnostic tests 30
![Page 32: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/32.jpg)
• This implies that the ROC curve, hence also the optimal c-value, isindependent of the numbers of cases and controls as well.
• In terms of the cut-off for the predicted probabilities, there is a change:
Use and misuse of statistics: Diagnostic tests 31
![Page 33: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/33.jpg)
Quality of diagnostic tests
• A good diagnostic test should allow for a c-value implying highsensitivity as well as specificity
• Therefore, the AUC should be close to 1:
AUC=0.96
Use and misuse of statistics: Diagnostic tests 32
![Page 34: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/34.jpg)
• A worthless test is one where classification is based on pure guessing:
ConfusionYES NO
GuessYES 5 20 25
NO 15 60 75
20 80 100
ConfusionYES NO
xA (1 − x)A A
xB (1 − x)B B
x (A+B) (1 − x)(A+B) A + B
Sensitivity + Specificity =xA
x(A+B)+
(1 − x)B
(1 − x)(A+B)= 1
=⇒ AUC = 0.5
Use and misuse of statistics: Diagnostic tests 33
![Page 35: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/35.jpg)
AUC range Quality
0.90 − 1.00 excellent
0.80 − 0.90 good
0.70 − 0.80 fair
0.60 − 0.70 poor
0.50 − 0.60 fail
Use and misuse of statistics: Diagnostic tests 34
![Page 36: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/36.jpg)
Final remarks & conclusion
• ROC, sensitivity and specificity are helpful for constructing decisionrules and for quantifying the quality of discrimination
• One should realize that ROC merely ‘summarizes’ the observed data
• Results can only be generalized to the population if the uncertainty inthe estimation of the ROC curve is correctly accounted for.
• For example, AUC = 0.6 can be the result of pure chance.
• It may therefore be of interest to test:
H0 : AUC ≤ 0.5 versus H0 : AUC > 0.5
Use and misuse of statistics: Diagnostic tests 35
![Page 37: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by](https://reader033.vdocuments.mx/reader033/viewer/2022060921/60ad67b3082c9c13df154bf2/html5/thumbnails/37.jpg)
Bibliography
[1] A.I. Amin, O. Hallbook, A.J. Lee, R. Sexton, B.J. Moran, and R.J. Heald. A 5-cm colonic j pouch colo-analreconstruction following anterior resection for low rectal cancer results in acceptable evacuation and continence in the
long term. Colorectal Disease, 5:33–37, 2003.
[2] T. Shatari, M.A. Clark, T. Yamamoto, A. Menon, C. Keh, J.Alexander-Williams, and M. Keighley. Long strictureplasty is
as safe and effective as short strictureplasty in small-bowel crohn’s disease. Colorectal Disease, 6:438–441, 438.
Use and misuse of statistics: Diagnostic tests 36