bioinformatyczne bazy danych

42
Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM dr Jan Paweł Jastrzębski Bioinformatyczne bazy Bioinformatyczne bazy danych danych • Genomowe • Proteomowe • Publikacje Jako merytoryczna weryfikacja danych ologiczne bazy danych przeszukuje się główni celu znalezienia: ekwencji nukleotydowych ekwencji białkowych truktur białkowych nformacji merytorycznych i publikacji pierwotne wtórne

Upload: carly-booker

Post on 03-Jan-2016

69 views

Category:

Documents


1 download

DESCRIPTION

Bioinformatyczne bazy danych. Genomowe Proteomowe Publikacje. pierwotne wtórne. Jako merytoryczna weryfikacja danych. Biologiczne bazy danych przeszukuje się głównie w celu znalezienia: sekwencji nukleotydowych sekwencji białkowych struktur białkowych - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Bioinformatyczne bazy danychBioinformatyczne bazy danych

• Genomowe

• Proteomowe

• Publikacje

Jako merytoryczna weryfikacja danych

Biologiczne bazy danych przeszukuje się głównie w celu znalezienia:

• sekwencji nukleotydowych• sekwencji białkowych• struktur białkowych• informacji merytorycznych i publikacji

pierwotnewtórne

Page 2: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Wyszukiwarki popularnych serwisówWyszukiwarki popularnych serwisów

Page 3: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Przeszukiwanie za pomocą słów kluczowychPrzeszukiwanie za pomocą słów kluczowych

• Słowem kluczowym (keyword) może być dowolna fraza (np. hemoglobin) lub numer ID danego rekordu z bazy

• Fraza, czyli zapytanie do wyszukiwania może mieć złożoną formę w celu precyzyjnego określenia celu poszukiwania w wyszukiwaniu zaawansowanym:(hemoglobin) AND ((human) OR (bovine)) NOT (alpha)

• Do przeszukiwania konkretnej bazy w NCBI przydatnym narzędziem jest „historia wyszukiwania”

Page 4: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Historia wyszukiwania w NCBIHistoria wyszukiwania w NCBI

Page 5: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Przeszukiwanie za pomocą odnośnikówPrzeszukiwanie za pomocą odnośników

Page 6: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Przeszukiwanie na podstawie Przeszukiwanie na podstawie wprowadzonej sekwencjiwprowadzonej sekwencji

• http://www.ncbi.nlm.nih.gov/blast/producttable.shtml

• http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml

Page 7: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

BLASTBLAST

Page 8: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Etapy dopasowywania sekwencjiEtapy dopasowywania sekwencji

Page 9: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Kryteria szacowania podobieństwa sekwencjiKryteria szacowania podobieństwa sekwencji

Page 10: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

• Procent identyczności (względny udział odpowiadających sobie pozycji obsadzonych tymi samymi resztami)

• Długość porównywanych sekwencji (liczba porównywanych pozycji)

• Rozmieszczenie identycznych pozycji wzdłuż porównywanych sekwencji

• Typ reszt okupujących pozycje konserwatywne (sekwencje białkowe)

• Relacje genetyczne/strukturalne między resztami znajdującymi się w odpowiadających sobie nieidentycznych pozycjach (sekwencje białkowe)

Kryteria szacowania podobieństwa sekwencjiKryteria szacowania podobieństwa sekwencji

Page 11: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Procedura oszacowania stopnia podobieństwa Procedura oszacowania stopnia podobieństwa porównywanych sekwencjiporównywanych sekwencji

Bardzo często oszacowanie stopnia podobieństwa porównywanych sekwencji sprowadzane jest jedynie do określenia względnego udziału pozycji identycznych. Pozostałe kryteria analizy zazwyczaj nie są w ogóle brane pod uwagę (np. bezwzględna długość sekwencji, dystrybucja identycznych pozycji wzdłuż łańcucha). Podejście takie jest niekompletne i stwarza ryzyko błędnej interpretacji otrzymanych wyników.

Przedstawiona niżej metoda oparta jest na prawdopodobieństwie przypadkowego pojawienia sie zadeklarowanego stopnia identyczności. Uwzględnia ona podstawowe parametry mające znaczenie dla opisu faktycznego związku między porównywanymi sekwencjami.

Liczbę wszystkich możliwych stopni identyczności dla danych dwóch sekwencji opisuje poniższe równanie:

Gdzie:x – ilość rodzajów jednostek występujących w sekwencjach (20 dla białek; 4 dla

kwasów nukleinowych)n – długość sekwencji (liczba porównywanych par pozycji)a – ilość pozycji identycznych

anan

a

n xxxa

nxT

1

0

2

Page 12: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

• Alignment, multiple alignment = dopasowanie (wielu) sekwencji

• Dopasowywanie globalnedopasowanie, którego mechanizm zakłada porównanie całych sekwencji ze sobą

• Dopasowywanie lokalnedopasowywanie na podstawie podobieństwa oddzielnych rejonów porównywanych sekwencji – ta metoda zakłada modularną strukturę białek i dopuszcza istnienie domen

Dopasowywanie dwóch sekwencjiDopasowywanie dwóch sekwencji

Page 13: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Programowanie dynamiczneProgramowanie dynamiczneopiera się na podziale rozwiązywanego problemu na podproblemy

względem kilku parametrów.

Page 14: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Dopasowanie globalne (1970) Dopasowanie globalne (1970) The Needleman and Wunsch AlgorithmThe Needleman and Wunsch Algorithm

Mi,j = Mij + max(Mk,j+1 , Mi+1,I)

Page 15: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Powstawanie dot-matrixPowstawanie dot-matrix

Page 16: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Dot-matrix ścieżka i alignmentDot-matrix ścieżka i alignment

Page 17: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

FASTAFASTA

Page 18: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Dot-matrixDot-matrix

Page 19: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Dlaczego FAST?Dlaczego FAST?

Page 20: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Podobieństwa biochemiczne i Podobieństwa biochemiczne i biofizyczne aminokwasówbiofizyczne aminokwasów

Diagram Venn-a

Page 21: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Macierze substytucji (podstawień)Macierze substytucji (podstawień)

• Jak za pomocą liczby określić podobieństwa biochemiczne i biofizyczne poszczególnych aminokwasów tak, aby liczba ta wyrażała jednocześnie realny wpływ na całe białko podstawienia danego aminokwasu innym w łańcuchu polipeptydowym?

!!! MACIERZE SUBSTYTUCJI !!!

Page 22: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

PAM i BLOSUMPAM i BLOSUM

Page 23: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

PAMPAM

Page 24: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

BLOSUM BLOSUM (62)

Page 25: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Kara za przerwy Kara za przerwy (gap (gap costscosts, , gappenaltygappenalty))

Kara za otwarcie przerwy – GKara za przedłużenie przerwy – L

Kara = G + Lngdzie:n – długość przerwy

Standardowo:G = 10 - 15L = 1 - 2

Page 26: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Programowanie Programowanie dynamicznedynamiczne

– – local alignmentlocal alignment

Page 27: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Algorytmy i narzędzia dopasowań lokalnychAlgorytmy i narzędzia dopasowań lokalnych

• FASTA (FAST Alignment):– Pierwszy program do przeszukiwania baz w celu znalezienia podobnej

sekwencji

– Używa szablonów słów (wielkość słowa)

– Łączenie słów i prosta algorytmiczna optymalizacja

• BLAST (Basic Local Alignment Search Tool )– Idea sąsiadujących słów (podobne, nie identyczne słowa) – pozwala

stosować słowa o dużych rozmiarach

– Kilka wersji BLAST-a

• ClustalW – multiple alignment

Page 28: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jak używać BLAST do Jak używać BLAST do wyszukiwania sekwencji?wyszukiwania sekwencji?

Page 29: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jakiego BLAST-a wybrać?Jakiego BLAST-a wybrać?

Page 30: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Formatka BLAST w NCBIFormatka BLAST w NCBI

Page 31: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

BLAST – ustawienia zaawansowaneBLAST – ustawienia zaawansowane

Page 32: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jak używać BLAST do Jak używać BLAST do wyszukiwania sekwencji?wyszukiwania sekwencji?

Page 33: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jak analizować wyniki z BLAST w NCBIJak analizować wyniki z BLAST w NCBI

Graficzny przegląd wyników

Page 34: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jak analizować wyniki z BLAST w NCBIJak analizować wyniki z BLAST w NCBI

Szczegóły znalezionych dopasowań

Page 35: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jak analizować wyniki z BLAST w NCBIJak analizować wyniki z BLAST w NCBIAlignmenty czyli zestawienia sekwencji

Page 36: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

BLAST w EBIBLAST w EBI

Page 37: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

ClustalW w EBIClustalW w EBI

Page 38: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Analiza wyników ClustalWAnaliza wyników ClustalW

Page 39: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Podstawy genetyczne Podstawy genetyczne algorytmów do zestawień algorytmów do zestawień

aminokwasów?aminokwasów?Replacement PAM250 BLOSUM62

Arg/Lys 3 2

Lys/Gln 1 1

Arg/Gln 1 1

Lys/Glu 0 1

Arg/Glu -1 0

MetAUG

MetAUG

ArgAGG

ArgAGG

LysAAG

LysAAG

ProCCC

ProCCC

AsnAAC

AsnAAC

ArgAGG

ArgAGG

GlnCAG

GlnCAG

HisCAC

HisCAC

SerAGC

SerAGC

ArgCGG

ArgCGG

ArgCGC

ArgCGC

LysAAG

LysAAG

?

Page 40: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

AGCU 1

3 2

Q

Q

H

H

Y

Y

E

E

D

D

K

K

N

N

R

R

R

R

W

C

C

G

G

G

G

R

R

S

S

P

P

P

P

S

S

S

S

A

A

A

A

T

T

T

T

L

L

L

L

L

L

F

F

V

V

V

V

I

M

I

I

Diagram of amino acid genetic relationships CAA UAA GAA AAA

CAG UAG GAG AAG

CAC UAC GAC AAC

CAU UAU GAU AAU

CGA UGA GGA AGA

CGG UGG GGG AGG

CGC UGC GGC AGC

CGU UGU GGU AGU

CCA UCA GCA ACA

CCG UCG GCG ACG

CCC UCC GCC ACC

CCU UCU GCU ACU

CUA UUA GUA AUA

CUG UUG GUG AUG

CUC UUC GUC AUC

CUU UUU GUU AUU

Diagram of codon genetic relationshipsAlgorytm semihomologicznyAlgorytm semihomologiczny

Page 41: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Dot matrix pairwise alignmentDot matrix pairwise alignment

Internal homology (gene multiplication)

Chicken ovoinhibitor precursor

(7 domains)

Chicken ovomucoid precursor

(3 domains)

BLAST 2 SEQUENCES SEMIHOM

Page 42: Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

FinFin