biologiczne bazy danych (2)theta.edu.pl/wp-content/uploads/2018/05/podstbioinf_wd4.pdf · genomy i...

58
BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE Podstawy Bioinformatyki wykład 4

Upload: danglien

Post on 28-Feb-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

BIOLOGICZNE BAZY DANYCH (2)GENOMY I ICH ADNOTACJE

Podstawy Bioinformatyki

wykład 4

GENOMY I ICH ADNOTACJE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 2

UCSCEnsemblNCBI

GENOMY I ICH ADNOTACJE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 3

NCBI

NCBI REFERENCE SEQUENCE DATABASE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 4

NCBI RefSeq:

kompleksowy, zintegrowany, niepowtarzalny dobrze opisany zestaw sekwencji referencyjnych

genomy, transkrypty, białka

baza niepowtarzalna (non-redundant)

informacje sprawdzone (często weryfikowane manualnie)

NCBI REFERENCE SEQUENCE DATABASE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 5

NCBI RefSeq:

kompleksowy, zintegrowany, niepowtarzalny dobrze opisany zestaw sekwencji referencyjnych

genomy, transkrypty, białka

baza niepowtarzalna (non-redundant)

NCBI REFERENCE SEQUENCE DATABASE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 6

NCBI REFERENCE SEQUENCE DATABASE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 7

NCBI REFERENCE SEQUENCE DATABASE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 8

NCBI REFERENCE SEQUENCE DATABASE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 9

NCBI REFERENCE SEQUENCE DATABASE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 10

Identyfikatory:

NM_numer / XM_ numer mRNA

NP_numer / XP_numer białka

NR_ numer / XR_ numer niekodujące RNA

NC_ numer, NG_ numer kontigi, sekwencje genomowe

N – sekwencje uzyskane z wyników eksperymentów

X – sekwencje z adnotacji (sekwencja została przewidziana np. przez zmapowanie białka do genomu spokrewnionego organizmu)

NCBI REFERENCE SEQUENCE DATABASE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 11

NCBI GENOME DATABASE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 12

NCBI GENOME DATABASE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 13

NCBI DOWNLOADFTP (FILE TRANSFER PROTOCOL)

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 14

GENOMY I ICH ADNOTACJE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 15

EnsemblNCBI

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 16

„Przeglądarka” genomów kręgowców

Wspiera badania z zakresu genomiki porównawczej, ewolucji i regulacji ekspresji genów

Dostępne narzędzia: BLAST, BLAT, BioMart, Variant Effect Predictor (VEP)

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 17

Ensembl

EnsemblGenomes

EnsemblFungi

EnsemblMetazoa

EnsemblProtists

EnsemblBacteria

EnsemblPlants

PreEnsembl

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 18

Identyfikatory (Homo sapiens):

ENSG→ Gene

ENST→ Transcript

ENSP→ Protein

ENSE→ Exon

Identyfikatory (inne gatunki):

ENSFCAT00000032635 Felis catus

ENSRNOG00000050313 Rattus norvegicus

ENSCAFG00000022708 Canis lupus familiaris

ENSBTAT00000064726 Bos taurus

Zagadka:

ENST00000471181.7 ? ?

ENSRNOT00000075759.1 ? ?

ENSSSCG00000018060 ? ?

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 19

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 20

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 21

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 22

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 23

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 24

Na którym chromosomie leży gen BRCA1?

Ile ma form splicingowych?

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 25

Który transkrypt jest najdłuższy?

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 26

Który transkrypt jest najdłuższy?

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 27

Downloads → Download data via FTP

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 28

Downloads → Download data via FTP

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 29

Masked and unmasked genome sequences associated with the

assembly (contigs, chromosomes etc.)

Coordinate-system string: coord_system:version:name:start:end:strand

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 30

cDNA sequences for Ensembl or ab initio predicted genes.

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 31

Non-coding RNA gene predictions.

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 32

Protein sequences for Ensembl or ab initio predicted genes.

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 33

GTF → Gene sets for each species. These files include annotations of

both coding and non-coding genes.

GFF3 → provides access to all annotated transcripts which make up

an Ensembl gene set.

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 34

GTF → Gene sets for each species. These files include annotations of

both coding and non-coding genes

ENSEMBL

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 35

GFF3 → provides access to all annotated transcripts which make up

an Ensembl gene set

ENSEMBL TOOLS

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 36

VEP → Analyse your own variants and predict the functional

consequences of known and unknown variants

VEP

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 37

VEP → Analyse your own variants and predict the functional

consequences of known and unknown variants

VEP

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 38

VEP → Analyse your own variants and predict the functional

consequences of known and unknown variants

BIOMART

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 39

BioMart → Export custom datasets from Ensembl with this data-mining

tool

BIOMART

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 40

BioMart → Export custom datasets from Ensembl with this data-mining

tool

Dataset:

Ensembl genes

Mouse strains

Ensembl Variation

Ensembl Regulation

BIOMART

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 41

BioMart → Export custom datasets from Ensembl with this data-mining

tool

Filters → specifikacja przeszukiwań

Atributes → określenie formatowania danych wyjściowe

Count → dostępne rekordy o określonych parametrach

Results → wyniki, eksport plików

BIOMART

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 42

BioMart → Export custom datasets from Ensembl with this data-mining

tool

BIOMART

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 43

BioMart → Export custom datasets from Ensembl with this data-mining

tool

BIOMART

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 44

BioMart → Export custom datasets from Ensembl with this data-mining

tool

BIOMART

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 45

BioMart → Export custom datasets from Ensembl with this data-mining

tool

GENOMY I ICH ADNOTACJE

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 46

UCSCEnsemblNCBI

UCSC

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 47

UCSC

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 48

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 49

UCSC – GEN PAH

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 50

Gen PAH (enzym hydroksylazy fenyloalaninowej)

Na którym chromosomie jest zlokalizowany?

Jakiej długości jest sekwencja?

UCSC – GEN PAH

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 51

Gen PAH (enzym hydroksylazy fenyloalaninowej)

Ile ma wariantów splicingowych?

Ile ma egzonów?

UCSC – GEN PAH

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 52

Gen PAH (enzym hydroksylazy fenyloalaninowej)

Czy zawiera elementy powtarzalne?

Ile w danym regionie zaobserwowano SNP?

UCSC – GEN PAH

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 53

Gen PAH (enzym hydroksylazy fenyloalaninowej)

Gdzie ulega najwyższej ekspresji?

UCSC – OPCJE WYŚWIETLANIA

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 54

UCSC

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 55

UCSC – TABLE BROWSER

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 56

Wszystkie znane geny z bazy UCSC dla myszy

Chromosome 1

Format BED

UCSC – TABLE BROWSER

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 57

Wszystkie znane geny z bazy UCSC dla myszy

Chromosome 1

Format BED

UCSC – TABLE BROWSER

PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 58

Wszystkie znane geny z bazy UCSC dla myszy

Chromosome 1

Format BED