biologiczne bazy danych (2)theta.edu.pl/wp-content/uploads/2018/05/podstbioinf_wd4.pdf · genomy i...
TRANSCRIPT
NCBI REFERENCE SEQUENCE DATABASE
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 4
NCBI RefSeq:
kompleksowy, zintegrowany, niepowtarzalny dobrze opisany zestaw sekwencji referencyjnych
genomy, transkrypty, białka
baza niepowtarzalna (non-redundant)
informacje sprawdzone (często weryfikowane manualnie)
NCBI REFERENCE SEQUENCE DATABASE
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 5
NCBI RefSeq:
kompleksowy, zintegrowany, niepowtarzalny dobrze opisany zestaw sekwencji referencyjnych
genomy, transkrypty, białka
baza niepowtarzalna (non-redundant)
NCBI REFERENCE SEQUENCE DATABASE
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 10
Identyfikatory:
NM_numer / XM_ numer mRNA
NP_numer / XP_numer białka
NR_ numer / XR_ numer niekodujące RNA
NC_ numer, NG_ numer kontigi, sekwencje genomowe
N – sekwencje uzyskane z wyników eksperymentów
X – sekwencje z adnotacji (sekwencja została przewidziana np. przez zmapowanie białka do genomu spokrewnionego organizmu)
ENSEMBL
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 16
„Przeglądarka” genomów kręgowców
Wspiera badania z zakresu genomiki porównawczej, ewolucji i regulacji ekspresji genów
Dostępne narzędzia: BLAST, BLAT, BioMart, Variant Effect Predictor (VEP)
ENSEMBL
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 17
Ensembl
EnsemblGenomes
EnsemblFungi
EnsemblMetazoa
EnsemblProtists
EnsemblBacteria
EnsemblPlants
PreEnsembl
ENSEMBL
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 18
Identyfikatory (Homo sapiens):
ENSG→ Gene
ENST→ Transcript
ENSP→ Protein
ENSE→ Exon
Identyfikatory (inne gatunki):
ENSFCAT00000032635 Felis catus
ENSRNOG00000050313 Rattus norvegicus
ENSCAFG00000022708 Canis lupus familiaris
ENSBTAT00000064726 Bos taurus
Zagadka:
ENST00000471181.7 ? ?
ENSRNOT00000075759.1 ? ?
ENSSSCG00000018060 ? ?
ENSEMBL
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 24
Na którym chromosomie leży gen BRCA1?
Ile ma form splicingowych?
ENSEMBL
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 29
Masked and unmasked genome sequences associated with the
assembly (contigs, chromosomes etc.)
Coordinate-system string: coord_system:version:name:start:end:strand
ENSEMBL
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 30
cDNA sequences for Ensembl or ab initio predicted genes.
ENSEMBL
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 32
Protein sequences for Ensembl or ab initio predicted genes.
ENSEMBL
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 33
GTF → Gene sets for each species. These files include annotations of
both coding and non-coding genes.
GFF3 → provides access to all annotated transcripts which make up
an Ensembl gene set.
ENSEMBL
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 34
GTF → Gene sets for each species. These files include annotations of
both coding and non-coding genes
ENSEMBL
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 35
GFF3 → provides access to all annotated transcripts which make up
an Ensembl gene set
ENSEMBL TOOLS
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 36
VEP → Analyse your own variants and predict the functional
consequences of known and unknown variants
VEP
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 37
VEP → Analyse your own variants and predict the functional
consequences of known and unknown variants
VEP
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 38
VEP → Analyse your own variants and predict the functional
consequences of known and unknown variants
BIOMART
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 39
BioMart → Export custom datasets from Ensembl with this data-mining
tool
BIOMART
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 40
BioMart → Export custom datasets from Ensembl with this data-mining
tool
Dataset:
Ensembl genes
Mouse strains
Ensembl Variation
Ensembl Regulation
BIOMART
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 41
BioMart → Export custom datasets from Ensembl with this data-mining
tool
Filters → specifikacja przeszukiwań
Atributes → określenie formatowania danych wyjściowe
Count → dostępne rekordy o określonych parametrach
Results → wyniki, eksport plików
BIOMART
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 42
BioMart → Export custom datasets from Ensembl with this data-mining
tool
BIOMART
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 43
BioMart → Export custom datasets from Ensembl with this data-mining
tool
BIOMART
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 44
BioMart → Export custom datasets from Ensembl with this data-mining
tool
BIOMART
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 45
BioMart → Export custom datasets from Ensembl with this data-mining
tool
UCSC – GEN PAH
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 50
Gen PAH (enzym hydroksylazy fenyloalaninowej)
Na którym chromosomie jest zlokalizowany?
Jakiej długości jest sekwencja?
UCSC – GEN PAH
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 51
Gen PAH (enzym hydroksylazy fenyloalaninowej)
Ile ma wariantów splicingowych?
Ile ma egzonów?
UCSC – GEN PAH
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 52
Gen PAH (enzym hydroksylazy fenyloalaninowej)
Czy zawiera elementy powtarzalne?
Ile w danym regionie zaobserwowano SNP?
UCSC – GEN PAH
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 53
Gen PAH (enzym hydroksylazy fenyloalaninowej)
Gdzie ulega najwyższej ekspresji?
UCSC – TABLE BROWSER
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 56
Wszystkie znane geny z bazy UCSC dla myszy
Chromosome 1
Format BED
UCSC – TABLE BROWSER
PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 57
Wszystkie znane geny z bazy UCSC dla myszy
Chromosome 1
Format BED