seminar fortgeschrittene algorithmische bioinformatik oligodesignprobleme von oliver arnold &...
Post on 05-Apr-2015
114 Views
Preview:
TRANSCRIPT
Seminar Fortgeschrittene Algorithmische Bioinformatik
Oligodesignprobleme
von
Oliver Arnold & Jan Hendrik Nielsen
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 2
Gliederung
Erster Teil: Einführung in DNA-Chip Design
Einleitung DNA-Chips
Aufbau von cDNA-Chips Aufbau von Oligo-Chips Beobachtung der Genexpression Synthese der Oligonukleotide Merkmale der Oligo-Chips Kriterien für optimale Oligos Anwendungsgebiete
Zweiter Teil: Algorithmen zur Konstruktion von Oligos später ...
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 3
DNA-Chips
werden allgemein benutzt um zu ermitteln ob Gene exprimiert sind (kodieren für Proteine)
hauptsächlich 2 Arten von Chips: cDNA Microarrays (Incyte Inc.) Oligonucleotide Microarrays (Affymetrix)
Spots auf dem Chip müssen einzigartig für ein Gen sein (Spezifität)
Spots müssen dieses Gen entdecken (Sensitivität) alle Spots sollten unter den gleichen Bedingungen
funktionieren, z.B. Temperatur (Einheitlichkeit)
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 4
Aufbau von cDNA-Chips
10000 Gene auf einem Chip Oberfläche ist aus beschichtetem Glas hohe Sensitivität, wegen langer Probe-Sequenzen aber niedrige Spezifität, wegen vieler Fehl-Hybridisierungen Probes können nicht zwischen ähnlichen oder gleichen
Subsequenzen unterscheiden dadurch auch nicht zwischen Gen-Familien mehrere cDNAs für ein Gen (Fehl-Hybridisierung!)
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 5
Aufbau von Oligo-Chips
9000 Gene auf einem Chip Oberfläche für Oligos ist aus
beschichtetem Glas oder Silizium
Oligos sind in Arrays angeordnet (65000-500000 auf einem Chip)
jedes Array (Spot) "erkennt" ein Gen
extrahierte Gene (targets) lagern sich an Oligos (probes) an Hybridisierung
[2]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 6
Beobachtung der Genexpression (1)
Extrahieren der Gene (mRNA) aus einem Referenz- und einem Mutationstyp
Reverse Transkription um cDNAs zu erzeugen
Vervielfältigung der cDNAs durch PCR
Markierung der Gene mit unterschiedlich fluoreszierenden Farbstoffen (z.B. rot und grün)
"Fluten" des Chips mit markierten cDNAs
[2]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 7
Beobachtung der Genexpression (2)
Temperatur-Erhöhung um Fehl-Hybridisierungen zu denaturieren
Waschen des Chips Beseitigung von ungebundener cDNA
Auswertung der Daten, bzw. Messen der Intensität der Farbstoffe
[2]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 8
Synthese der Oligonukleotide
benutzte Methode: Photolitographie Oligos können parallel erzeugt werden Maske mit Löchern wird benutzt
ultraviolettes Licht tritt nur durch die Löcher beschienene Oligos werden "aktiviert" Basen/Nukleotide können sich anlagern Chip wird mit Nukleotiden einer Art "geflutet" ungebundene Basen werden abgewaschen nächste Maske wird benutzt Wiederholung der einzelnen
Schritte (ca. 70 mal)
[2]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 9
Merkmale der Oligo-Chips (1)
Oligos werden nur durch bekannte Sequenz-Informationen produziert
jedes Oligo wird mit einem Mismatch-Oligo gepaart, unterscheiden sich nur im Zentrum (durch eine Base)
typischerweise werden 20 Paare von Oligonukleotiden zur Erkennung eines Gens verwendet (ein Spot)
Fehl-Hybridisierungen können erkannt werden Oligos, die weniger (oder gleich) hybridisieren als Mismatch-Oligos,
implizieren geringe Spezifität
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 10
Merkmale der Oligo-Chips (2)
es gibt zwei Typen von Oligo-Chips short Oligo-Chips (Länge: 20-25 bp) long Oligo-Chips (Länge: 50-70 bp)
oft wird nur ein Oligonukleotide gebraucht, um ein Gen zu erkennen weniger Fehl-Hybridisierungen
mögliche sich wiederholende oder ähnliche Sequenzen vermeidbar
dadurch höhere Spezifität Chips noch relativ teuer gute Methoden/Algorithmen werden benötigt, um Oligos zu
erzeugen
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 11
Kriterien für optimale Oligos
6 Kriterien1. Base Composition Limit: keine der Basen sollte 50% eines
Oligos ausmachen
2. Base Distribution Limit: Folge eines Basentypes sollte nicht 25% eines Oligos überschreiten
3. GC-Content: sollte zwischen 30% und 70% liegen
4. Sekundärstruktur: Oligos sollten keine Dimers oder Hairpins ausbilden
5. Länge eines zusammenhängenden, komplementären Match zu non-targets sollte kleiner als 15 bp sein
6. Anteil der komplementären Nukleotide im Verhältnis zu non-targets sollte kleiner als 75% sein
Kriterien 1, 2 und 4 sind implizit in den anderen Bedingungen enthalten
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 12
Anwendungsgebiete (1)
Erkennen von SNP‘s (Single Nucleotide Polymorphism) die zusammenhängende Gensequenz wird durch sich
überschneidene Oligos der Länge 25 bp repräsentiert drei Permutationen von jedem Oligo werden mit auf den Chip
gepackt unterscheiden sich bloß im zentralen Nukleotid
dadurch können alle SNP‘s eines Gens durch den Chip erkannt werden
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 13
Anwendungsgebiete (2)
Beobachtung der Effekte, Effizienz und Metabolismus von Medikamenten Leber = Hauptwirkungsstätte bei der Umwandlung von
Medikamenten und Hormonen Untersuchung der Gene aus dem Leber-Gewebe daher
repräsentativ für den ganzen Organismus Vergleiche der Genexpressionen können helfen die Wirkung
von Medikamenten festzustellen Verstehen von Krankheitsverläufen Bestimmen, welche Gene verschiedene Gewebe- und Zell-
Typen exprimieren
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 14
Es geht weiter ...
Zweiter Teil: Algorithmen zur Konstruktion von Oligos
Einleitung Worum geht es?
Methoden der DNA-Array-Synthese SADP – Synchronous Array Design Problem
der Epitaxial-Algorithmus der Row-Epitaxial-AlgorithmusMatching
AADP – Asynchronous Array Design Problem Algorithmen für „in-place Optimierung“:
Batched Greedy, Chessboard & der Sequential Algorithmus
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 15
Einleitung - Worum geht es? (1)
Oligodesignproblem (siehe vorheriger Teil) Heute 500.000 Proben pro Chip (Tendenz steigend) Prozess der Beleuchtung zur Verkettung von Nukleotiden
fehleranfällig optische Effekte (Beugung, Brechung, etc.) können
unbeabsichtigte Beleuchtung verursachen als Folge: unvorhergesehene Synthese (und vieles mehr…)
Lösung: Auswahl der Platzierung von Nukleotiden Border Minimization Problem (BMP)
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 16
Einleitung - Worum geht es? (2)
Border: Grenze zwischen zwei benachbarten Proben maskiert / unmaskiert Anzahl wird als conflicts bezeichnet
Minimization: Verteilung der Proben mit möglichst kleiner Border Length (Summe der Border über alle Masken)
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 17
Methoden der DNA-Array-Synthese (1)
Synchrone Synthese: Jede Periode der
Supersequenz S (= ACGT) synthetisiert ein einzelnes Nukleotid
Asynchrone Synthese: Erlaubt willkürliches
Einsetzen der Nukleotide
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 18
Methoden der DNA-Array-Synthese (2)
Synchrones, sowie asynchrones Array-Design kann durch Angabe einer mutmaßlichen unteren Grenze errechnet werden. Basierend auf:
dem Hammingabstand bei synchroner Synthese dem LCS bei asynchroner Synthese
Aber: sehr langsam exakt
deshalb nur Verwendung zum Vergleich der später vorgestellten Heuristiken
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 19
SADP – Synchronous Array Design Problem
Ursprüngliche Vorgehensweise: Berechnung der Konflikt-Distanz: d(p, p‘) = 2h(p, p‘),
wobei p ≡ Proben und 2h ≡ zweifacher Hammingabstand
danach TSP-Heuristik, um die Nukleotide mit minimiertem Hammingabstand auf einer Site anzuordnen (Hannenhalli et al., 2002; erstes Arraydesign bei Affymetrix)
Aber: es geht "besser" (dieser Ansatz optimiert nur etwa die Hälfte der benachbarten Paare) …
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 20
SADP
Der "epitaxial placement approach": Ursprung in der VLSI (Very Large Scale Integration) Idee: Zweidimensionale Anordnung von Proben um
einen einzelnen (zufällig gewählten und zentralen) Startpunkt (seed)
Epitaxial-Algorithmus ist nur bis zu einer Chipgröße von 300 x 300 Proben praktikabel
daher: Skalierung durch Aufteilung in K Subsets (chunks) Nachteil:
begrenzte Platzierungsmöglichkeit; Probe kann nicht überall auf dem Array angelegt werden (nur in ihrem Subset)
keine Optimierung der Grenzen zwischen den chunks
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 21
SADP
Der Epitaxial-Algorithmus
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 22
SADP
Verbesserung (Kahng et al.): row-epitaxial-algorithm
Drei Haupteigenschaften:
1. Umstrukturierung einer vorab optimierten, bestehenden
Anordnung - erste Platzierung kann durch verschiedene
Algorithmen erfolgen (z.B. Gray Code) muss sehr schnell sein - TSP (Hannenhalli et al.) braucht
zu lange gute initial-Anordnung: lexikographische Sortierung der
Proben (radix sort)
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 23
SADP
2. Auffüllung der leeren Flächen mit Proben, in einer vordefinierten Reihenfolge (von links nach rechts, Reihe für Reihe)
3. die Proben werden aus den nächsten k0 Reihen gewählt
k0 = Lookahead beim Algorithmus
dadurch Geschwindigkeit des Algorithmus erhöht
je größer k0, desto besser ist das Ergebnis
jedoch schlechtere Laufzeit
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 24
SADP
Vergleich der bisher vorgestellten Algorithmen
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 25
AADP – Asynchronous Array Design Problem
Algorithmen für "in-place Optimierung" Der Batched Greedy Algorithmus:
sucht die Probe mit höchstem "Gewinn" nach Umsetzung
und aktualisiert seine "Gewinnliste"
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 26
AADP
Die Chessboard Optimization Idee: Maximiere Anzahl unabhängiger Nukleotide Ein Nukleotid ist unabhängig, wenn das Vertauschen
Eines
die optimale Einbettung des Anderen nicht beeinflusst. Zweifärben der Array-site (Schachbrett);
alle weißen/schwarzen Felder können untereinander neu
angeordnet werden
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 27
AADP
Der Sequential Algorithmus ermöglicht optimale Umsortierung der Nukleotide geht Array Reihe für Reihe durch
Nachteil von Batched Greedy, Chessboard: nur unabhängige Nukleotide werden vertauscht Auswirkungen verbreiten sich langsam
Das wird durch die sequentielle Abarbeitung gelöst
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 28
AADP
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 29
Quellenangabe
Paper: [1]Scalable Heuristics for Design of DNA Probe Arrays - Andrew B. Kahng, Ion I.
Măndoiu, Pavel A. Pevzner, Sherief Reda and Alexander Z. Zelikovsky DNA chips: promising toys have become powerful tools - David Gerhold,
Thomas Rushmore and C. Thomas Caskey Picky: oligo microarray design for large genomes - Hui-Hsien Chou, An-Ping
Hsia, Denise L. Mooney and Patrick S. Schnable
Links: [2]http://www.affymetrix.com http://www.charite.de/molbiol/bioinf/tumbiol/Microarrayanalysis/Introduction/ http://www.math.tau.ac.il/~rshamir/algmb/00/scribe00/html/lec11/node11.html http://www.stat.berkeley.edu/users/terry/Classes/s260.1998/Week9b/week9b/
node1.html http://www.lshtm.ac.uk/itd/grf/microarrayoverview.htm http://www.hhmi.org/biointeractive/genomics/microarray.html
top related