danmarks tekniske universitet -...

17
Danmarks Tekniske Universitet Skriftlig prøve, den 20/1-2014 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle opgaver. Kursusansvarlig ------------------------------------------- Side 1 of 17

Upload: dokhanh

Post on 06-Aug-2019

223 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

Danmarks Tekniske Universitet

Skriftlig prøve, den 20/1-2014

Kursus navn: Kursus nr. 27633Introduktion til Bioinformatik

Tilladte hjælpemidler:Alle

"Vægtning"Angivet ved de individuelle opgaver.

Kursusansvarlig

-------------------------------------------Thomas Nordahl Petersen

Side 1 of 13

Page 2: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

27633 Eksamen Januar 2014Dette sæt indeholder 5 opgaver (side 1-12) – check at du har alle sider.

Opgave 1 – DNA og aminosyrer (10%) Opgave 2 – UniProt, Genbank og Blast (25%)Opgave 3 – Substitutions matrix (25%)Opgave 4 – parvis alignment (20%)Opgave 5 – Genotype, phenotype og SNP (20%)

En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan.

Svar til opgavesættet kan skrives enten i rå tekst (fx i JEdit) eller i et tekstbehandlingprogram såsom Microsoft Word. Gyldige formater er .txt, .doc, .docx og .rtf. Vi foretrækker dog at du benytter Microsoft Word.

Svaret skal uploades på CampusNet under kursus 27633 (under "Opgaver -> bioinformatik-eksamen2014"). Husk at gemme seneste version af dokumentet inden du uploader svaret. Når du afleverer får du en kode som skal skrives i feltet "Afleveringskode" nedenfor.

VIGTIGT: Dit studienummer skal fremgå af filnavnet (fx. s022717.doc eller s022717.txt) og skal også stå i starten af dokumentet (fx: "Studienummer: s022717")

Udfyld denne forside og aflever den til eksamensvagten.

Navn: ______________________________________________________________

Studienummer: _______________________________________________________

Afleveringskode: ____________________________________________________

Side 2 of 13

Page 3: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

Ang. brug af InternettetTrådløst internet:Du kan koble dig på det Wireless system du normalt bruger.

Online materialer:Linksamlingen til bioinformatik serverne findes via kursets lektionsplan.BEMÆRK: I er ikke begrænset til kun de links der findes her – det er tilladt at søge information andetsteds.

Det er IKKE tilladt at kommunikere med andre over nettet under eksamen. Sluk telefonen.

Der vil blive taget stikprøver af netværkstrafikken for at sikre dette.Hvad gør man hvis en web-server ikke virker:Verificer at input-data er i korrekt format. Forkert inputdata er i næsten alle tilfælde årsagen til problemet.

Prøv evt. at finde en alternativ server med samme funktion (Google).

Rapporter fejlen til eksamensvagten - den kursusansvarlige vil så blive tilkaldt.

HUSK altid:

”Don’t panic” Held og lykke med eksamenen.-Thomas

Side 3 of 13

Page 4: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

Opgave 1 – DNA og aminosyrer (10%)

a) Herunder er vist et kort stykke af et protein på 5 aminosyrer og sekvensen er skrevet med 1-bogstavskoder for aminosyrerne.

DGNTF

Skriv den samme sekvens ved hjælp af 3-bogstavskoder.

b) Herunder er vist endnu et kort stykke af et protein på 5 aminosyrer og sekvensen er skrevet med 3-bogstavskoder for aminosyrerne.

Lys Arg Ile Pro Trp

Skriv den samme sekvens ved hjælp af 1-bogstavskoder.

c) Et kort stykke DNA er blevet sekventeret med følgende sekvens:5’-CTGGTACGTCTT-3’Skriv med 1-bogstavskoder den proteinsekvens man får ved at oversætte DNA sekvensen i læseramme -2.

d) Hvilke af disse processer herunder forekommer ikke normalt i naturen?

a. RNA -> DNAb. DNA -> RNAc. Protein-> DNAd. RNA ->Proteine. DNA->Protein

e) Sekundærstrukturen i et protein består af , og coil regioner. I en normal -helix er der hydrogenbindinger mellem backbone-atomerne N og O (Nitrogen og carbonyl oxygen). Hvis der er en hydrogenbinding fra atomet N i aminosyre nummer 14, hvad er så nummeret på den aminosyre, hvor hydrogenbingen går til O (carbonyl oxygen)?

Side 4 of 13

Page 5: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

Opgave 2 – UniProt, Genbank og Blast (25%)

Meteorin er et gen som findes i hjernen hos bla. mennesker, hvor det har en vigtig funktion i forbindelse med udviklingen af neuroner. I genbank kan man finde nukleotid-sekvensen under navnet NM_024042.2 Benyt informationen i Genbank til at svare på følgende:

a. Hvor mange basepar består genet af?

b. Hvilken del af genet er den kodende sekvens (CDS, kaldet Coding sequence). Skriv positionerne hvor det starter og slutter.

c. Det protein som oversættes fra CDS (Eng: Coding sequence) skal virke enten inde i cellen eller udenfor. Begrund hvor du mener det vil virke?

I Uniprot databasen findes protein-sekvensen under navnet METRN_HUMAN.

d. Find denne sekvens og indsæt den herunder i fasta format.

Benyt din fasta sekvens til at finde homologe, dvs evolutionært beslægtede sekvenser. Du skal benytte blastp (protein blast) fra dette web-site http://blast.ncbi.nlm.nih.gov/ og blaste din sekvens mod ’nr’ databasen.

e. Find det første hit hvor sekvensen er alignet til rotte (Rattus norvegicus). Kopier og indsæt dette alignment til rotte herunder og angiv sekvens-identiteten i procent.

f. Hvis du skal bedømme om det alignment du fandt i spg e) er signifikant og troværdigt, skal du benytte en bestemt parameter. Forklar hvilken parameter du vil bruge og hvor stor eller lille denne parameter skal være, hvis du skal bedømme om et alignment er signifikant eller ej.

Side 5 of 13

Page 6: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

Side 6 of 13

Page 7: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

Opgave 3 – Substitutions matrix (25%)

I det følgende skal du lave en substitutionsmatrix udfra et kort multipelt alignment som er vist i Tabel 1.

Tabel 1Position 1 Position 2 Position 3 Position 4

Sekvens 1 T A A TSekvens 2 T A V TSekvens 3 A A V TSekvens 4 T A V A

For at beregne tallene i substitutionsmatricen, ved hjælp af log-odds værdier, skal du benytte Formel 1 herunder. Der er nogle mellemregninger som du først skal lave i Tabel 2 og 3 inden du til sidst udfylder substitionsmatricen i Tabel 4.

Sij = 2log2(Pij/QiQj) Formel 1

hvor Sij er substitionsscoren mellem aminosyre i og aminosyre j. Pij er frekvensen af substitutioner fra aminosyre i til aminosyre j. Qi og Qj er frekvensen af aminosyre i og frekvensen af aminosyre j.

a) Som det første skal du udfylde Tabel 2 med Nij som er antallet af substitutioner mellem aminosyre i og aminosyre j, samt frekvensen Pij som er givet ved Pij = Nij/(summen over alle Nij). Skriv tallene Pij som brøker for at undgå afrundingsfejl.

Tabel 2Aminosyre i,j Nij PijT,TT,AT,VA,TA,AA,VV,TV,AV,T

Side 7 of 13

Page 8: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

b) Udfyld Tabel 3 med frekvenserne Qi af de enkelte aminosyrer.

Tabel 3

c) Udfyld Tabel 4 med log-odds værdierne Sij som tidligere er givet ved Formel 1 og vist igen herunder.

Sij = 2log2(Pij/QiQj) Formel 1,hvor log2(n) = ln(n)/ln(2) = log(n)/log(2)Du kan med fordel benytte google som regnemaskine.

Tabel 4T A V

TAV

Side 8 of 13

QiTAV

Page 9: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

Opgave 4 – Parvis alignment (20%)

Herunder er to proteinsekvenser sekvensA og sekvensB.

>sekvensASGEV>sekvensBTAPDM

Der findes overordnet 2 typer af alignment: lokal alignment og global alignment. I det følgende skal du benytte Blosum50 substitutionmatricen herunder og Figur 3 som er vist på næste side til at aligne de to sekvenser sekvensA og sekvensB. Alle gaps har en værdi på -2.

BLOSUM50 substitution matrix:A   5R  -2  7N  -1 -1  7D  -2 -2  2  8C  -1 -4 -2 -4 13Q  -1  1  0  0 -3  7E  -1  0  0  2 -3  2  6G   0 -3  0 -1 -3 -2 -3  8H  -2  0  1 -1 -3  1  0 -2 10I  -1 -4 -3 -4 -2 -3 -4 -4 -4  5L  -2 -3 -4 -4 -2 -2 -3 -4 -3  2  5K  -1  3  0 -1 -3  2  1 -2  0 -3 -3  6M  -1 -2 -2 -4 -2  0 -2 -3 -1  2  3 -2  7F  -3 -3 -4 -5 -2 -4 -3 -4 -1  0  1 -4  0  8P  -1 -3 -2 -1 -4 -1 -1 -2 -2 -3 -4 -1 -3 -4 10S   1 -1  1  0 -1  0 -1  0 -1 -3 -3  0 -2 -3 -1  5T   0 -1  0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1  2  5W  -3 -3 -4 -5 -5 -1 -3 -3 -3 -3 -2 -3 -1  1 -4 -4 -3 15Y  -2 -1 -2 -3 -3 -1 -2 -3  2 -1 -1 -2  0  4 -3 -2 -2  2  8V   0 -3 -3 -4 -1 -3 -3 -4 -4  4  1 -3  1 -1 -3 -2  0 -3 -1  5    A  R  N  D  C  Q  E  G  H  I  L  K  M  F  P  S  T  W  Y  V

Hvis du har word:Hvis du har åbnet dette dokument i word er det nemmest bare at udfylde tabellen som er vist i Figur 3.

Hvis du ikke har word:Skriv alignmentscorerne i en lang liste med angivelse af hvilken celle i Figur 3 du udregner, hvor cellerne er (række,kolonne) f.eks. på denne måde:

Side 9 of 13

Page 10: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

M – C celle (1,1) = AlignmentscoreM – E celle (1,2) = AlignmentscoreM – G celle (1,3) = Alignmentscore

.

.

.I – S celle (5,4) = Alignmentscore

a) Lav en global alignment af de to sekvenser ved at udfylde hele tabellen i Figur 3 og skriv hvilken alignmentscore du får?

b) Skriv herunder det endelige globale alignment af de 2 sekvenser du har fundet ved at udfylde tabellen i Figur 3.

Side 10 of 13

Page 11: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

Figur 3

S G E V

0 -2 -4 -6 -8

T -2

A -4

P -6

D -8

M -10

Side 11 of 13

Page 12: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

Opgave 5 – Genotype, phenotype og SNP (20%)

I Danmark produceres, spises og drikkes mange forskellige fødevarer som er baseret på mælk fra køer. Der er imidlertid nogle personer som ikke kan tåle mælkeprodukter da de er laktose intolerante (Eng: lactose intolerance). Evnen til at nedbryde laktose fra mælkeprodukter er bestemt af vores gener og store dele af menneskelige populationer tåler mælkeprodukter også i voksenlivet, selvom mange pattedyr bliver laktose intolerante i deres voksenliv.

Laktose intolerance kan forudsiges i mennesker ved at bestemme genotypen på ganske få SNPs (Single Nucleotide Polymorphisms). To af disse SNPs er rs4988235, som er associeret med den normale form for lactose intolerans, mens SNP rs121908936 er associeret med en sjælden form for laktose intolerans, som på engelse kaldes congenital lactase deficiency. SNP rs4988235 ligger indenfor det genomiske område som koder for genet MCM6, mens rs121908936 ligger indenfor det genomiske område som koder for genet LCT (Vist i Figur 1 herunder).

Figur 1. De tynde streger er intron områder, mens de tykkere bokse er exons.

De to SNPs kan du slå op databasen http://www.ncbi.nlm.nih.gov/snp/

a) Hvad er genotypen for SNP rs4988235 ?

b) Hvad er genotypen for SNP rs121908936 ?

c) Herunder er vist et lille stykke DNA med 3 codons, hvor positionen markeret med ‘X’ er der hvor SNP rs121908936 findes. De 3 codons er i et exon som koder for proteinet lactase.

GCA TAX CAG

Side 12 of 13

Page 13: Danmarks Tekniske Universitet - teaching.bioinformatics.dtu.dkteaching.bioinformatics.dtu.dk/.../27633_bioinformatik_eksamen_2014.… · Web viewGyldige formater er .txt, .doc, .docx

Benyt genotypen du bestemte i spg b) til at svare på hvad der sker med lactase proteinet når du har den givne genotype, dvs skriv hvad der sker med codon (TAX) for begge alleler (Engelsk alleles)?

d) Hvilken effekt vil SNP rs4988235 have på protein sekvensen som genet MCM6 koder for?

e) En person af europæisk oprindelse har fået bestemt genotypen af SNP rs4988235 til at være GG på plus-strengen af sit DNA. Benyt http://www.snpedia.com/index.php/SNPedia til at undersøge om denne person kan tåle mælk. Hvad er phenotypen?

Side 13 of 13