compdiag.molgen.mpg.decompdiag.molgen.mpg.de/docs/talk_20_01_03_lottaz.pdfcarried out at the st....
TRANSCRIPT
������������������ ������������ �� ��� �
�� ��������� �� ���� ������ ��
Computational Diagnostics GroupComputational Molecular Biology DepartmentMax Planck Institute for Molecular GeneticsIhnestrasse 73, D-14195 Berlin (Germany)
�������� 20-Jan-03
2 / 21Claudio Lottaz: �������� �� �����������������������������
������
• Introduction
• Class prediction using Gene Ontology annotations
• Performance evaluation
• Observations on weighs and nodewise predictions
• Discussion
������ ����� 20-Jan-03
3 / 21Claudio Lottaz: �������� �� �����������������������������
����� ��� � ��
• !� �: medical diagnostics usinggene expression patterns
• � � : many genes – few samples – no structure
• ���� ���� ": add structure using functionalannotations in addition to expression data
• # ��� ����: relate prediction results to biologicalaspect ⇒ rationale for computational results
������ ����� 20-Jan-03
4 / 21Claudio Lottaz: �������� �� �����������������������������
!����������
• Structure knowledge about genes
• Directed acyclic graph
• Represents knowledge on• Molecular function
• Bilogical process
• Cellular component
• Genes are annotated to nodes in the graph
������������ �������� ���
���������������������
��������������� ����� ���
���������� �������� �����
... ... ...
������ ����� 20-Jan-03
5 / 21Claudio Lottaz: �������� �� �����������������������������
$ �����"���%����������&'���"�� ����� �()�*++*,
• �������� reprsentclasses
• �"���% � weightsinfluence of genes
• ������"��"������ leadsto removal ofundiscriminating genes
• �� ����� ���� to nearestshrunken centroid.
����������������� ������������������������������ 20-Jan-03
6 / 21Claudio Lottaz: �������� �� �����������������������������
����� �����������������!�-$��
• One predictor per GO-node ��contains 2 classifiers
• Only genes annotated with � or its successors areused for classification.
• First classifier for directlyannotated genes, based onnearest shrunken centroids
• Second classifier forchildren, a weighted sumwith normalization
��
�������...
...
���������
����������������� ������������������������������ 20-Jan-03
7 / 21Claudio Lottaz: �������� �� �����������������������������
.���� -���#���� �������� � ������"����"�/��"��
• Start with leaf-nodes (postorder traversal)• Use results of CHILDREN to train their parents• Edges carry weights for each class.• Weights are chosen proportional
to �������� � ������������������ in child(zero if negative)
• Scores computed as weightedsums are normalized to mimicprobabilities.
����������������� ������������������������������ 20-Jan-03
8 / 21Claudio Lottaz: �������� �� �����������������������������
01�� �������� ����� ����
• Weights on edges after supervised trainingas well as nodewise accuracy after cross validation:• Which biological aspects (nodes) are considered
important in a classification task?
• Results in nodes after classification of a single case:• Which aspects favour the predicted class?
• Whcih aspects are missing compared to a typical case ofthe predicted class?
������ ��������� ����� 20-Jan-03
9 / 21Claudio Lottaz: �������� �� �����������������������������
# �� �� ����
• Java-program (by Stefan Bentink)• Crawls through the Gene Ontology
• Annotates probe-sets to GO nodes
• Generates post-order list of GO-nodes
• Perl-script translates list of GO-nodes to R
• R-program implements training and classification
• Perl-scripts distribute cross validation onthe Grid Engine
������ ��������� ����� 20-Jan-03
10 / 21Claudio Lottaz: �������� �� �����������������������������
����� �����!�-$���
• 12625 probe-sets on Affymetrix HG-U95Av2
• 7115 probe-sets are annotated
• 6310 probe-sets are annotated several times, up to 23
• 2979 nodes have probe-set annotations below them
• 50 nodes have more than 100, up to 965 annotations
• 33 nodes have more than 10, up to 31 children
������ ��������� ����� 20-Jan-03
11 / 21Claudio Lottaz: �������� �� �����������������������������
01��������� � ���� ���% � ������
• Study on acute lymphoblastic leukemia (ALL)carried out at the St. Jude Children‘s ResearchHospital• 327 patients
• 12625 genes (Affymetrix HG-U95Av2)
• Various genetic subtypes of ALLs clinically confirmed
• 269 patients with follow-up on relapse
• Gene expression values computed by average diff.
• Variance stabilisation and calibration
������ ��������� ����� 20-Jan-03
12 / 21Claudio Lottaz: �������� �� �����������������������������
����� ������� ���-������������% � -�������
• Leave-one-out cross validation for StAM, 10 fold crossvalidation for PAM
• Compare withSt. Jude preten-tions and plainPAM (nearestshrunkencentroids)
93
94
95
96
97
98
99
100
BCR-ABL E2A-P BX1 Hyp erd ip loid MLL TEL-AML1 T-ALL
���������������
��� ����
StAM PAM St. Jude
������ ��������� ����� 20-Jan-03
13 / 21Claudio Lottaz: �������� �� �����������������������������
$����������������� �����������
������ ��������� ����� 20-Jan-03
14 / 21Claudio Lottaz: �������� �� �����������������������������
$����������������� �����������2�������3
�!������������������"�������������������������� 20-Jan-03
15 / 21Claudio Lottaz: �������� �� �����������������������������
����� ��������/��"��
• For prediction: few GO-nodes, sparce graphs:
• Overall 431 of 3835 edges connect 385 of 3180 GO-nodes
������� �������� ��� ����� ����������������� ����������
��� !" �#� ��$ !�� �%% �"& '"��(�� !& �)� ��# !&) �$) �$) �)�*���� !&## ""%! %''$ &�)' "#&� "%$) %#%&
�!������������������"�������������������������� 20-Jan-03
16 / 21Claudio Lottaz: �������� �� �����������������������������
'"�����!� �"�����.��-�.�
• Projects/StAM/R/
�!������������������"�������������������������� 20-Jan-03
17 / 21Claudio Lottaz: �������� �� �����������������������������
45'"����5�!� �"����'0�-���6
• Projects/StAM/R/
�!������������������"�������������������������� 20-Jan-03
18 / 21Claudio Lottaz: �������� �� �����������������������������
����� ��������$��������������
• When investigating class �:
• From cross validation results,select all samples predicted for class �
• Select all nodes used for classification
• Cluster samples hierarchically
• Can we find differences/groups among samplessharing the same prediction?
�!������������������"�������������������������� 20-Jan-03
19 / 21Claudio Lottaz: �������� �� �����������������������������
�!������������������"�������������������������� 20-Jan-03
20 / 21Claudio Lottaz: �������� �� �����������������������������
���� ����� 20-Jan-03
21 / 21Claudio Lottaz: �������� �� �����������������������������
���������
• Summary• Competitive performance on simple problem
• Small graphs are used for prediction
• Alternative features leading to same prediction –not yet confirmed
• Future work• Fine-tuning on difficult problems (weighting)
• Improve methods to find interesting nodes
• Does all this mean something biologically?
• Investigate other means to structure the data