nem kódoló rns ekből potenciálisan keletkező de novo...

55
1 Nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék azonosítása és elemzése DIPLOMAMUNKA Készítette: Kiss-Tóth Annamária Infobionika MSc Témavezető: dr. Gáspári Zoltán Pázmány Péter Katolikus Egyetem Információs Technológiai Kar 2014

Upload: others

Post on 04-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

1

Nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék

azonosítása és elemzése

DIPLOMAMUNKA

Készítette:

Kiss-Tóth Annamária

Infobionika MSc

Témavezető:

dr. Gáspári Zoltán

Pázmány Péter Katolikus Egyetem

Információs Technológiai Kar

2014

Page 2: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

2

Page 3: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

3

PÁZMÁNY PÉTER KATOLIKUS EGYETEM

INFORMÁCIÓS TECHNOLÓGIAI ÉS BIONIKAI KAR

DIPLOMATERV-TÉMABEJELENTŐ

Név: Kiss-Tóth Annamária

Tagozat: nappali Szak: Info-bionika MSc (IMNI-IB)

Témavezető neve: Gáspári Zoltán

A dolgozat címe: Nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék

azonosítása és elemzése

A dolgozat témája

Az úgynevezett de novo fehérjék korábban nem kódoló DNS-szakaszok átírásával és

lefordításával létrejövő fehérjék. Mai tudásunk szerint ilyen fehérjék folyamatosan

keletkeznek, az emberré válás során is létrejött több ilyen fehérje. A már átíródó szakaszok,

azaz a nem kódoló RNS-ek génjei potenciálisan viszonylag könnyen adhatnak életet új

fehérjekódoló géneknek. A megcélzott vizsgálat célja ismert nem kódoló RNS-ekről

potenciálisan keletkező fehérjék azonosítása és azok részletes jellemzése térszerkezeti

predikciókkal.

Feladatok: Tekintse át a de novo fehérjekeletkezés irodalmát, különös tekintettel a nem

kódoló RNS-ekre vonatkozó esetekre! Bioinformatikai eszközökkel keressen olyan

fehérjéket, amelyek egyes kiválasztott RNS-molekulák (pl. riboszomális RNS-ek, SRP RNS

stb.) egyes szakaszainak megfelelhetnek! Ellenőrizze a találatokat génpredikciós

algoritmusokkal! Elemezze a kapott fehérjéket szerkezetpredikciós eljárásokkal, és kritikusan

elemezze az egyes feltételezhető génkeletkezési események relevanciáját! Adjon általános

értékelést a jelenség feltételezhető gyakoriságáról!

Page 4: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

4

Page 5: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

5

Nyilatkozat

Alulírott Kiss-Tóth Annamária, a Pázmány Péter Katolikus Egyetem Információs

Technológiai Karának hallgatója kijelentem, hogy ezt a diplomamunkát meg nem engedett

segítség nélkül, saját magam készítettem, és a diplomamunkában csak a megadott forrásokat

használtam fel. Minden olyan részt, melyet szó szerint, vagy azonos értelemben, de

átfogalmazva más forrásból átvettem, egyértelműen a forrás megadásával megjelöltem. Ezt a

diplomamunkát más szakon még nem nyújtottam be.

2014. május 20.

…………………………………

Kiss-Tóth Annamária

Page 6: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

6

TARTALOMJEGYZÉK

TARTALOMJEGYZÉK

TARTALMI ÖSSZEFOGLALÓ

ABSTRACT

1. BEVEZETÉS

2. CÉLKITŰZÉSEK

3. ELMÉLETI BEVEZETŐ

3.1. De novo fehérjék képződése

3.2. 23S rRNS, 16S rRNS

3.3. Alu szekvenciák

3.4. FLJ33706 [Homo sapiens] fehérje

4. MÓDSZEREK

4.1. Nukleotidszekvenciák lefordítása (EMBOSS Transeq)

4.2. Hasonlóságkeresés (BLAST)

4.3. Gén predikció, kódoló régiók azonosítása (Glimmer)

4.4. Promoter régiók keresése (BPROM, Neural Network Promoter Prediction)

4.5. Rendezetlenség-vizsgálat (IUPred)

4.6. Aggregáció (TANGO-WALTZ)

4.7. Transzmembrán régiók jóslása (PHOBIUS)

4.8. Domének keresése (SBASE)

4.9. Coiled coil szerkezetek keresése (COILS, MARCOIL, MULTICOIL)

4.10. Fehérjén belüli motívumok keresése (PROSITE)

4.11. Rokon fehérjecsaládok keresése (Pfam)

4.12. Szignálpeptid keresése (SignalP)

4.13. Teljes háromdimenziós fehérjeszerkezet jóslása (I-TASSER)

4.14. Szerkezeti illesztés (MAMMOTH)

4.15. Szerkezeti predikciók helyességének ellenőrzése (MisPred)

5. A FELADAT MEGVALÓSÍTÁSA

5.1. 16S rRNS és 23S rRNS lefordítása és hasonló, nem hipotetikus fehérjék keresése

(EMBOSS, BLAST, Glimmer, promoter keresés)

5.2. Alu szekvencia lefordítása és hasonló fehérjék keresése (EMBOSS, BLAST)

5.3. Kísérletileg bizonyított de novo fehérje vizsgálata

5.4. A fehérjekódoló szekvenciák vizsgálata, szekvenciaillesztés (BLAST)

5.5. A fehérjék szerkezeti tulajdonságainak megjósolása

6

8

10

12

14

16

16

17

17

18

20

20

20

20

21

21

21

22

22

23

23

23

23

24

25

25

27

27

27

27

28

28

Page 7: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

7

6. EREDMÉNYEK

6.1. A részletes vizsgálatokba bevont fehérjék adatainak összefoglalása

6.2. A fehérjekódoló szekvenciák szekvenciaillesztése

6.3. A kódoló szekvenciák helyzete a megfelelő nukleinsavakban

6.4. Az egyes fehérjék térszerkezetének vizsgálata

6.4.1. Ribosomal protein S10 [Medicago truncatula] [XP_003588337.1]

6.4.2. hCG2031845 [Homo sapiens] [EAX06532.1]

6.4.3. LAMA5 protein [Homo sapiens] [AAH85017.1]

6.4.4. FLJ33706 [Homo sapiens] [EAW76366.1]

6.5. Az I-TASSER segítségével kapott háromdimenziós szerkezetek vizsgálata

7. EREDMÉNYEK ÉRTÉKELÉSE

ÖSSZEFOGLALÁS

IRODALOMJEGYZÉK

KÖSZÖNETNYILVÁNÍTÁS

8. FÜGGELÉK

30

30

31

34

35

38

40

41

43

43

45

47

48

49

50

Page 8: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

8

TARTALMI ÖSSZEFOGLALÓ

Diplomamunkám témája a nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék

azonosítása és szerkezeti preferenciáinak vizsgálata.

Először alapos irodalomkutatást végeztem mind a de novo fehérjékről, a kiindulásként

szolgáló 16S- és 23S rRNS-ekről, az Alu szekvenciákról, mind pedig az általam a vizsgálatok

során használandó bioinformatikai programokról, módszerekről. Ezt számos tudományos cikk

és internetes forrás segítségével hajtottam végre.

Ezután a potenciális de novo fehérjéket a már említett módszerekkel azonosítottam, szerkezeti

tulajdonságaikat vizsgáltam, és az ilyen módon kapott eredményekből következtetéseket

vontam le. A fehérjeazonosításokat és szerkezeti vizsgálatokat több lépésben végeztem.

Először EMBOSS Transeq segítségével 6 frame-ben lefordítottam a 16S rRNS, a 23S rRNS és

az általam választott Alu szekvenciákat. Ezután BLAST algoritmussal hasonló fehérjéket

kerestem, és a legjobb, annotált találatokkal dolgoztam tovább. A 16S rRNS-ből és a 23S

rRNS-ből származtatott fehérjék esetében ezeket a fehérjéket az NCBI adatbázisban

visszakerestem, és innen kimásoltam az őket kódoló nukleotidszekvenciákat. Glimmer

génpredikciós szerverrel megerősítettem, hogy valóban kódolószekvenciáknak tekinthetők-e.

Ahol a Glimmer pozitív eredményt hozott ki, azokkal a fehérjékkel dolgoztam tovább.

Ezekhez hozzávettem a 6 Alu szekvenciából lefordított fehérjéhez 6 leghasonlóbb annotált

fehérjét, valamint egy az irodalomból vett ténylegesen létező de novo fehérjét, és ezen

fehérjék tulajdonságait vizsgáltam részletesebben (összesen 15 fehérje).

A vizsgált tulajdonságok a következők: rendezetlenség-vizsgálat (IUPred szerver

segítségével), aggregáció-vizsgálat (TANGO-WALTZ algoritmus segítségével), domének

azonosítása (elsősorban SBASE segítségével, de más módszerekkel is, mint például Pfam),

transzmembrán régiók azonosítása (PHOBIUS szerver segítségével), lehetséges coiled coil

struktúrák azonosítása (több módszerrel is, mint COILS, MULTICOIL és MARCOIL),

fehérjén belüli motívumok vizsgálata (PROSITE szerver segítségével), rokon fehérjecsaládok

meghatározása (Pfam adatbázis segítségével), szignálpeptidek keresése (elsősorban SignalP

segítségével, de PHOBIUS szerverrel is), a teljes fehérje háromdimenziós szerkezetének

megjóslása (I-TASSER szerver segítségével), és az I-TASSER által megjósolt

háromdimenziós potenciális modellek többszörös térszerkezeti illesztése (MAMMOTH

szerver segítségével).

A szerkezeti tulajdonságok vizsgálatának segítségével igyekeztem bizonyítani, hogy ezek a

fehérjék valóban előfordulnak a természetben.

Page 9: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

9

Ezen felül a potenciális de novo fehérjék kódolószekvenciáit is vizsgáltam BLAST algoritmust

használva. Ezeket a kódoló szekvenciákat a megfelelő 16S rRNS-hez, 23S rRNS-hez vagy az

Alu szekvenciához illesztettem. A szekvenciaillesztéssel azt próbáltam meghatározni, hogy

vajon csak a fehérjék hasonlítanak-e nagy mértékben egymáshoz, vagy az őket kódoló

nukleinsavak is.

Diplomamunkám készítése során nem csak a vizsgált fehérjékről megállapított információk

jelentettek újdonságot, de számos új, a vizsgálatokhoz szükséges bioinformatikai módszert és

algoritmus ismertem meg.

Page 10: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

10

ABSTRACT

The topic of my thesis is identifying potentially existing de novo proteins from non-coding

RNAs and examining their structural preferences.

First and foremost, I thoroughly researched de novo proteins, 16S rRNA, 23S rRNA and Alu

sequences and the bioinformatics programs and methods I was going to use during the

examinations. To achieve this, I read a number of available articles published in scientific

journals as well as sought out several online sources.

Next, I identified the potential de novo proteins by the methods mentioned above, and studied

their structural properties. From these results conclusions could be drawn.

The protein identifications and structural examinations were carried out in several steps.

First, using EMBOSS Transeq server, I translated the 16S rRNA , 23S rRNA, and chosen Alu

sequences in all six frames. Then, with the help of BLAST algorithm I identified similar

annotated proteins and selected the best hits. After this, I obtained the coding sequences of the

proteins derived from 16S rRNA and 23S rRNA from the NCBI database. Then I submitted

these sequences in the Glimmer gen prediction server, which confirmed whether these

sequences could indeed be responsible for protein coding. In several cases Glimmer gave a

positive outcome, and I worked with these proteins further. To these proteins I added the six

best BLAST hits for the six Alu translations and one truly existing de novo protein from

literature (this means 15 proteins total).

Next, I examined the structural properties of these proteins. These properties include:

prediction of intrinsically unstructured proteins (with the help of IUPred server), prediction of

aggregated regions in the protein sequences (with the help of TANGO-WALTZ algorithm),

identification of domains (mostly with the help of SBASE, but can be confirmed with other

methods such as Pfam), identification of the transmembrane regions (with the help of

PHOBIUS server), identification of potential coiled-coil structures (using several different

methods such as COILS, MULTICOIL and MARCOIL) identification of structural motifs

within the proteins (with the help of PROSITE server), identification of protein families (with

the help of Pfam database), identification of signal peptides (mostly using SignalP server, but

PHOBIUS server can confirm as well), prediction of the three-dimensional structure of the

whole protein (with the help of I-TASSER server), multiple structural alignment of the three-

dimensional models previously predicted with I-TASSER (with the help of MAMMOTH

server).

With the help of these structural properties I tried prove these proteins really do exist in

nature.

Page 11: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

11

In addition to the proteins, I also examined the coding nucleotide sequences of these proteins

using BLAST. I did a pairwise sequence alignment for these coding sequences and the original

16S rRNA, 23S rRNA or Alu sequences their proteins were derived from. I wanted to

determine if these sequences match as well as the proteins themselves.

During the completion of my thesis not only did I uncover information about the properties of

these potential de novo proteins, but also learned about the use of quite a few new

bioinformatics methods and algorithms.

Page 12: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

12

1. BEVEZETÉS

Az úgynevezett de novo fehérjék korábban nem kódoló DNS szakaszok átírásával és

lefordításával létrejövő fehérjék. Mai tudásunk szerint ilyen fehérjék folyamatosan

keletkeznek, az emberré válás során is létrejött több ilyen fehérje. A DNS szakaszokról

átíródó RNS molekulák nagy része nem kódoló RNS, mely szabályzó vagy katalitikus

funkciót is betölthet. A szabályzó RNS-ek további vizsgálata izgalmas új kutatásterület. Az

RNS-ek másik csoportját alkotják a kódoló RNS-ek, melyek transzláció során fordítódnak le

fehérjékre. Ezeket nevezzük messenger RNS-eknek.

A jelenlegi kutatások alapján tudjuk, hogy a humán genom mintegy 75 százalékáról végbe

megy transzkripció, tehát valamilyen sejttípusban, illetve fejlődési stádiumban átíródik.

Feltételezhető, hogy a nem kódoló RNS-ek génjei viszonylag könnyen adhatnak életet új

fehérjekódoló géneknek, hiszen ezek esetében már „csupán” a lefordításra kell alkalmassá

válniuk. Ezen de novo gének meghatározása megkísérelhető a genomok összehasonlító

elemzésével. Génpredikciós eljárások segítségével meg lehet jósolni egy tetszőleges DNS

szakaszról, hogy aktív fehérjekódoló génnek felel-e meg. Ha a DNS szekvencia olyan

pozíciójában kapunk pozitív találatot, melyben a rokon fajoknál nem, akkor potenciális de

novo fehérjéről beszélhetünk. Ennek a fehérjének tényleges természetbeli előfordulását

azonban laboratóriumi kísérletekkel érdemes ellenőrizni, hogy a kétféle módszer megerősítse

egymást.

Mi lehet ezen fehérjék gyakorlati jelentősége? A de novo fehérjék nincsenek jelen nagy

mennyiségben a szervezetben, hiszen a kódolásukért felelős szabályozó régiók nem válnak

könnyedén optimálissá. Ugyanakkor a de novo fehérjék csak akkor maradhatnak fenn

evolúciósan, ha az egyednek valamilyen haszna származik létezésükből. Amennyiben hatásuk

káros, ez hosszabb távon az élőlény pusztulásához vezet. Az is előfordulhat (bár kis

valószínűséggel), hogy kifejezetten kedvezően befolyásolnak valamilyen sejtbeli folyamatot.

Ekkor öröklődéssel továbbvihetők az utódokba, és funkciójuk hatékonyabb betöltése

érdekében a jövőben módosulhatnak is.

Az általam végzett vizsgálatok során ilyen de novo fehérjék tényleges létezését igyekszem

kritikus vizsgálat alá vetni. Kiválasztottam két tipikus, nem fehérjekódoló RNS-t, a bakteriális

riboszóma 16S és 23S rRNS szekvenciáit, valamint az eukarióta szignálfelismerő részecske

7SL RNS-ével rokonságot mutató genomi ismétlődést, az úgynevezett Alu szekvenciákat

(ezen belül is az Alu-Sx alcsaládot). Első lépésben ezekből keletkezett potenciális de novo

fehérjéket kerestem, majd ezen fehérjéket alapos, elsősorban térszerkezeti predikciókon

Page 13: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

13

alapuló vizsgálatnak vetettem alá. Ezeknek a vizsgálatoknak az eredményeiből esetlegesen

megerősíthetem a de novo fehérjék tényleges előfordulását, és következtethetek létezésük

gyakoriságára. [1]

Page 14: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

14

2. CÉLKITŰZÉSEK

Diplomamunkám célkitűzései a következők:

1. A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu szekvenciák elméleti hátterének

elsajátítása az irodalomból.

2. Az ezekből a nukleinsavszekvenciákból lefordított fehérjeszekvenciák vizsgálata, hasonló

fehérjék azonosítása bioinformatikai módszerekkel.

3. A fehérjekódoló szekvenciák vizsgálata bioinformatikai módszerekkel, szekvenciaillesztés a

megfelelő nukleinsavakkal. A kódoló szekvenciákban promoter régiók azonosítása.

4. A fehérjék szerkezeti tulajdonságainak vizsgálata. Ilyen tulajdonságok például:

rendezetlenség-vizsgálat

aggregáció-vizsgálat

coiled-coil szerkezetek vizsgálata

transzmembrán régiók vizsgálata

domének keresése

fehérjén belüli motívumok vizsgálata

rokon fehérjecsaládok vizsgálata

szignálpeptidek keresése

háromdimenziós fehérjeszerkezet vizsgálata

térszerkezeti illesztés

5. A tulajdonságok vizsgálata alapján a potenciális fehérjék közül a ténylegesen létező de novo

fehérjék azonosításának megkísérlése, az eredményekből általános következtetések levonása.

6. A tulajdonságok vizsgálatához használt bioinformatikai módszerek, programok

használatának elsajátítása. Ilyenek többek között:

EMBOSS Transeq (nukleinsavak lefordítása)

Glimmer (génpredikció)

BPROM, Neural Network Promoter Prediction (promoter régiók keresése)

BLAST (szekvenciaillesztés)

IUPred (rendezetlenség-vizsgálat)

TANGO-WALTZ algoritmus (aggregáció-vizsgálat)

SBASE (domének azonosítása)

COILS, MARCOIL, MULTICOIL (coiled coil szerkezetek azonosítása)

PHOBIUS (transzmembránrégiók jóslása)

PROSITE (fehérjén belüli motívumok keresése)

Page 15: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

15

SignalP (szignálpeptidek keresése)

Pfam (rokon fehérjecsaládok azonosítása)

I-TASSER (háromdimenziós térszerkezeti vizsgálat)

MAMMOTH (tészerkezeti szekvenciaillesztés)

MisPred (predikciók ellenőrzése)

Page 16: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

16

3. ELMÉLETI BEVEZETŐ

3.1. De novo fehérjék képződése

A de novo fehérjék az úgynevezett rokontalan, „árva” fehérjék (orphan proteins) egy

csoportját alkotják, ahol a rokontalanság oka az, hogy az evolúciós közelmúltban jöttek létre

korábban fehérjét nem kódoló DNS-szakaszokból. Bár ennek elméleti lehetőségét már korán

felvetették, csak az utóbbi években sikerült ilyen fehérjék meglétét megbízhatóan igazolni. Az

emberi genomban legalább három olyan fehérje található, amely nagymajmokban nem kódoló

régiónak megfelelő DNS-szakaszról fejeződik ki. A de novo fehérjék képződésének első

lépése, hogy a megfelelő szakasz RNS-re átíródjon, azaz megtörténjen a transzkripció. A

képződött RNS-nek alkalmasnak kell lennie arra, hogy a transzlációs apparátus lefordítsa.

3.1. ábra

A fehérjekódoló gének működése, fehérjeszintézis mechanizmusa [1]

E lépésenkénti mechanizmus miatt a nem fehérjekódoló RNS-ek génjei elvileg könnyebben

adhatnak életet de novo fehérjéknek. Ezen megfontolásból kiindulva több olyan fehérjekódoló

gént is feltérképeztek főemlősökben, amelyek ún. hosszú, nem kódoló RNS-ek génjeiből

alakulhattak ki. Jelen munkában annak lehetőségét vizsgálom meg, hogy riboszomális RNS-ek

génjei részt vehettek-e ilyen mechanizmusokban, azaz tudok-e olyan eseteket azonosítani, ahol

az rRNS gének teljes vagy részleges duplikációja után a keletkező új gének szert tehettek

fehérjekódoló képességre. [1]

Page 17: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

17

3.2. 23S rRNS, 16S rRNS

A 23S rRNS a bakteriális riboszóma nagy alegységének része, az Escherichia coli

baktériumban 2904 nukleotidból áll. A riboszomális peptidil-transzferáz aktív centrum ezen

RNS V doménjében helyezkedik el. Ez a domén elsősorban azon antibiotikumok kötőhelye,

melyek gátolják a transzlációt. A transzlációt más helyeken is gátolni tudják antibiotikumok

(pontosabban elrontani), például a kis alegység kodonleolvasó mechanizmusába való

beavatkozással.

A 16S rRNS a bakteriális riboszóma kis alegységének egy komponense, 1542 nukleotid

hosszúságú (E. coli-ban). Funkciója a dekódolás, azaz a tRNS-mRNS felismerés koordinálása,

a transzláció hűségének biztosítása. [2, 3]

3.2. ábra

A riboszóma háromdimenziós modelljei (a sötétkék részek jelölik a kis alegységet, sötétpiros részek a

nagy alegységet) [4]

3.3. Alu szekvenciák

Az Alu szekvenciák rövid, elszórt elemek (SINE, Short Interspersed Nuclear Elements),

melyek megközelítőleg 300 nukleotid hosszúságúak. Több, mint 1 millió Alu szekvencia

található a humán genomban. Annak ellenére, hogy genetikailag első körben funkció

nélkülinek tekinthetőek, a legutóbbi eredmények arra utalnak, hogy az Alu elemek komoly

evolúciós hatással rendelkeznek, befolyásolják a génstruktúrákat, ez által a

fehérjeszekvenciákat, splicing motívumokat és a génkifejeződési mintázatokat. [5, 6]

Page 18: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

18

3.3. ábra

Alu alcsaládok konszenzus szekvenciái [6]

Vizsgálataimba bevonásukat az indokolta, hogy szekvenciális rokonságot mutatnak a

szignálfelismerő részecske (signal recongition particle, SRP) RNS-komponensével, valamint

átíródott RNS-formái génszabályozási folyamatokban vesznek részt. Mindezen felül ismertek

olyan fehérjekódoló gének, amelyek kialakításában részt vesznek.

3.4. FLJ33706 [Homo sapiens] fehérje

Az emberben található FLJ33706 de novo fehérje az azonos nevű FLJ33706 de novo gén

terméke. Ezen gén több szempontból is jelentősnek tűnik a szervezetben. Elsősorban

összefüggésbe hozható a nikotin függőséggel. Az általa kódolt FLJ33706 de novo fehérje

pedig elsősorban az agyban expresszálódik, és az Alzheimer kórban szenvedő betegek

agyában megnövekedett mennyiségben mutatták ki. Ebből arra következhetünk, hogy esetleg

szerepet játszhat ennek a pusztító betegségnek a kialakulásában. A gén jelen formájának

kialakulásában Alu szekvenciák részvételét is valószínűsítették a kutatók. Ezen fehérje

tényleges létezését sikerült laboratóriumi módszerekkel is igazolni. Szerkezeti predikciós

vizsgálatokon keresztül ezt én is megpróbálom megerősíteni. [1, 7]

Page 19: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

19

3.4. ábra

Az FLJ33706 de novo gén szerkezete [7]

Page 20: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

20

4. MÓDSZEREK

4.1. Nukleotidszekvenciák lefordítása (EMBOSS Transeq)

Az EMBOSS Transeq online szerver egy nukleotidszekvencia (DNS vagy RNS) lefordítását

végzi fehérjeszekvenciá(k)ra. Egy nukleinsavból összesen 6 frame-ben lehet 6 különböző

fehérjeszekvenciát kapni (3 forward frame, 3 reverse frame), az EMBOSS Transeq

segítségével ezeket a szekvenciákat tudjuk meghatározni. [8]

4.2. Hasonlóságkeresés (BLAST)

A BLAST (Basic Local Alignment Search Tool) egy olyan bioinformatikai algoritmus,

melynek segítségével különböző szekvenciákat hasonlítunk össze, lokális hasonlóságokat

keresve. Leggyakoribb alkalmazásában egy tetszőleges szekvenciát bemenetként megadva az

algoritmus összehasonlítja azt egy sok szekvenciából álló adatbázissal, és abban olyan

szekvenciákat azonosít, melyek hasonlítanak rá egy bizonyos küszöb felett.

A BLAST algoritmusnak többféle megvalósítása létezik, ilyenek például a protein-protein

BLAST (fehérjeszekvenciák összehasonlítása), nukleotid-nukleotid BLAST

(nukleotidszekvenciák összehasonlítása), vagy PSI BLAST (position-specific iterative

BLAST), mely a távolabbi fehérjeevolúciós kapcsolatok felderítésére használható. A

vizsgálatok során a protein-protein BLAST-ot (blastp) használtam.

Ezen felül mindegyik BLAST alkalmazásánál többféle adatbázis választható.

Fehérjeadatbázisokra példa a non-redundant protein (nr) adatbázis, az Uniprot/Swissprot, vagy

a Protein Data Bank. [9]

4.3. Gén predikció, kódoló régiók azonosítása (Glimmer)

A gén predikció fogalma alatt azt értjük, hogy egy genomban megjósoljuk azokat a

szakaszokat, melyek a fehérjekódoló géneket tartalmazzák. Prokariótákban nincsenek, illetve

igen ritkák a génen belüli nem kódoló szakaszok (intronok), tehát a prokarióták génjei

folytatólagosak. A Glimmer (Gene Locator and Interpolated Markov ModelER) kifejezetten

olyan program, melyet baktériumok és vírusok génjeinek meghatározására fejlesztettek ki,

alapja az interpolált Markov modell. Az eddig megvizsgált prokarióta genomok legnagyobb

részének (49 %) annotációja Glimmer-rel történt, ezt követi mindössze 12 százalékkal a

Genemark.hmm, mely szintén Markov modellre épül. [10, 11]

Page 21: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

21

4.4. Promoter régiók keresése (BPROM, Neural Network Promoter Prediction)

A promoterek olyan szakaszok a DNS-ben, melyek egy konkrét gén transzkripciójának

elindításáért felelősek, a transzkripciós starthelyeket határozzák meg. Helyileg közvetlenül a

gének előtt helyezkednek el. A prokarióták és az eukarióták közötti különbségek miatt a két

csoportra külön promoter adatbázisok és keresőprogramok léteznek. Prokariótákra a BPROM-

ot, eukariótákra a Neural Network Promoter Prediction-t használtam. [12, 13, 14, 15]

4.5. Rendezetlenség-vizsgálat (IUPred)

Az IUPred olyan program, mely egy fehérje rendezetlen szakaszainak jóslására használható. A

rendezetlen fehérjék/fehérjeszakaszok olyan szekvenciák, melyeknek nincs stabil, jól definiált

térbeli struktúrája natív körülmények között, hanem szerkezetük sok, egymásba alakuló

konformációs állapot dinamikus egyensúlyaként jellemezhető.

A módszer alapja, hogy a globuláris fehérjék a szerkezet kialakítása során számos aminosav-

aminosav kölcsönhatást létesítenek, ezek energiája ellensúlyozza a feltekeredés során

bekövetkező entrópiacsökkenést. A rendezetlen fehérjék nem képesek ilyen – megfelelő

mennyiségű és erősségű - kölcsönhatások kialakítására. A program egy beadott szekvencia

esetén ezeket a páronkénti energiákat becsüli meg és adja össze, minden egyes aminosavra,

majd a végeredményt átalakítja egy 0 és 1 közötti számmá (0: teljes rendezettség, 1: teljes

rendezetlenség). Alapesetben 0,5-nél nagyobb szám esetén az aminosav „rendezetlennek”

tekinthető. Az IUPred-ben egy szekvenciát háromféleképpen lehet vizsgálni, mindhárom

némileg eltérő paramétereket használ. A „long disorder” funkció a hosszabb (legalább 30

aminosavból álló) rendezetlen szakaszokat határozza meg, a „short disorder” rövidebb

rendezetlen szekvenciákat is keres, amelyeket az előző funkció figyelmen kívül hagy, a

„structured regions” (rendezett régiók) segítségével pedig a folyamatosan rendezett régiókat

keressük, amelyek a gyakorlatban a fehérje globuláris doménjeivel egyeznek meg. [16, 17]

4.6. Aggregáció (TANGO-WALTZ)

A fehérje-aggregáció az a jelenség, mely során a helytelenül feltekeredett fehérjék

’összetapadnak’. A fehérje-aggregátumok a jelenlegi ismereteink szerint gyakran toxikusak,

számos betegség kialakulásában játszanak fontos szerepet, mint az Alzheimer-kór, Parkinson-

kór és a prion betegségek.

A fehérjék aggregációs hajlamát többek között a TANGO-WALTZ algoritmus segítségével

vizsgálhatjuk. Ez két különböző algoritmus (TANGO és WALTZ) kombinációja. A TANGO

Page 22: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

22

algoritmus volt az elsőként kifejlesztett aggregációt jósló algoritmus. A beadott

fehérjeszekvencia belső aggregációra való hajlamát vizsgálja, és kimenetként olyan

szakaszokat ad vissza, melyek intermolekuláris béta-lemezek kialakításával erősen hajlamosak

fehérje aggregátumok kialakítására. Ennél jelentősen újabb a WALTZ algoritmus, mely az

amyloid aggregátumok létrehozására hajlamos régiókat határozza meg a fehérjékben. Ez azért

jelentős, mert az amyloid aggregátumokat tartják felelősnek számos súlyos betegség

kialakulásért, többek között a prion betegségért is. Ezzel az algoritmussal számos fontos

aggregálódó fehérjeszakaszt azonosítottak már a tudósok, melyek nagy részének létezését már

kísérleti úton is ellenőrizték. [18, 19]

4.7. Transzmembrán régiók jóslása (PHOBIUS)

A transzmembrán domén általában egy transzmembrán fehérje egyetlen transzmembrán alfa-

hélixét jelenti. Tágabb értelemben viszont bármilyen háromdimenziós fehérjestruktúrát

jelölhet, mely termodinamikailag stabil a membránban. Ez lehet egyetlen alfa-hélix, több alfa-

hélix stabil komplexe, transzmemebrán béta-lemez, vagy valamilyen más stabil szerkezet. Egy

transzmembrán hélix általában körülbelül 20 aminosav hosszúságú.

A fehérjék potenciális transzmembrán régióinak meghatározását a PHOBIUS szerverrel

végeztem. Ez megjósolja a transzmembrán hélixek és szignálpeptidek elhelyezkedését (ha

előfordulnak) a fehérjében, és a találat jóságának valószínűségét. [20, 21]

4.8. Domének keresése (SBASE)

Definíciója szerint a domén a fehérjelánc térszerkezeti, feltekeredési és funkcionális egysége.

Szekvenciája jellegzetes konzerváltsági mintázatot mutat. Számos fehérje több szerkezeti

doménből tevődik össze. Ezen felül egy domén több különböző fehérjében is megjelenhet,

amikor ez különböző kontextusban (más domének környezetében) történik, akkor modulokról

beszélünk (ekkor a domén, azaz modul önálló evolúciós egység is. A domének így a

molekuláris evolúció építőkövei is lehetnek, mely során rekombinálódhatnak különböző

elrendezésekben, hogy különböző funkciójú fehérjék jöjjenek létre. Egy domén hossza változó

lehet, rendszerint 25 és 500 aminosav között mozog, átlagosan nagyjából 160 aminosavra

tehető.

Az SBASE olyan doménkönyvtár, melynek segítségével egy tetszőleges szekvenciában

meghatározható a benne található domének neve, és elhelyezkedése. A doménkeresés alapja

egy, a már ismert doméneket tartalmazó adatbázis, és a hasonlóság keresés (BLAST). Az

SBASE fő jellegzetessége, hogy egy-egy doméntípus sokféle képviselőjét is tartalmazza,

Page 23: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

23

miáltal az adott család kevésbé jellegzetes tagjai is azonosíthatóvá válnak egyszerű BLAST

keresés segítségével. [22, 23]

4.9. Coiled coil szerkezetek keresése (COILS, MARCOIL, MULTICOIL)

A coiled coil egy jellegzetes motívum, ahol 2-7 alfa-hélix van ’összetekercselve’, mint egy

kötél szálai (dimerek és trimerek a leggyakoribb típusok). Egyéb, több hélixet tartalmazó

motívumoktól a hélixek közötti jellegzetes oldallánc-oldallánc kölcsönhatás különbözteti meg

(ún. 'knobs-into-holes packing'). A megfelelő szekvenciák jellegzetes, általában hét

aminosavas (heptád) ismétlődéseket tartalmaznak, a predikciós programok ezen motívum

felismerésén alapulnak. Számos coiled coil szerkezetet tartalmazó fehérje részt vesz olyan

fontos biológiai funkciókban, mint például a génexpresszió szabályozása (transzkripciós

faktorok). Ezen szerkezetek jóslását 3 különböző, más-más elméleti megfontolásokon alapuló

program segítségével végeztem, ezek a COILS, MARCOIL és a MULTICOIL. [24]

4.10. Fehérjén belüli motívumok keresése (PROSITE)

Fehérjék esetében, a szekvencia motívum egy aminosav-szekvencia minta, amely széles

körben elterjedt, és feltételezhető, hogy valamilyen biológiai jelentősége van. Tágabb

értelemben a domének is ilyen szekvenciális mintának felelnek meg, a mintázatok köre

azonban ennél lényegesen tágabb, számos funkcionális hely rendelkezik jellegzetes

mintázattal. Munkám során a PROSITE adatbázis és kereső segítségével azonosítottam a

fehérjékben található szekvenciamotívumokat. [25]

4.11. Rokon fehérjecsaládok keresése (Pfam)

A Pfam fehérjecsaládok adatbázisa, mely azok annotációját is tartalmazza. Fehérjecsalád alatt

evolúciósan rokon fehérjék egy csoportját értjük, ez gyakran szinonim a géncsaláddal is.

Minden családhoz elérhető az oda tartozó fehérjék többszörös szekvenciaillesztése is, mely

alapján HMM (Hidden Markov Model) profilokat hoztak létre. Ezek a HMM profilok

távolabbi rokon szekvenciák azonosítására is felhasználhatóak. [26, 27]

4.12. Szignálpeptid keresése (SignalP)

Általánosságban a szignálszekvenciák a fehérjék olyan szakaszai, amelyek a sejten belüli

lokalizáció meghatározásáért felelősek, és a fehérje valamelyik terminálisán vagy akár a

Page 24: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

24

belsejében is előfordulhat, Szűkebb értelemben véve a szignálpeptid egyes fehérjék N-

terminálisának azon szakasza, amely az adott fehérje membránba épülését/szekrécióját

irányítja. A transzmembrán fehérjék azonosításához kapcsolódóan lehetséges

szignálpeptideket a SignalP és a PHOBIUS szerver segítségével is kerestem. [28]

4.13. Teljes háromdimenziós fehérjeszerkezet jóslása (I-TASSER)

Az I-TASSER szerver segítségével elsősorban egy fehérje háromdimenziós szerkezeti

modelljét tudjuk megjósolni. Jelenleg ez az egyik legjobban teljesítő predikciós eljárás erre a

célra. Ezen felül megállapítható belőle például az is, hogy a Protein Data Bank-ben található

fehérjék közül melyek struktúrája hasonlít legjobban a jósolt szerkezethez, valamint szerkezeti

analógiák alapján a szerver funkcionális hozzárendelést is jósol.

Az I-TASSER szerver működésének mechanizmusát az alábbi ábra szemlélteti:

4.13. ábra

I-TASSER működése [29]

1. Első lépésben a felhasználó egy fehérjeszekvenciát ad be. Ebből a szerver először

megpróbál illeszkedő fehérje templátokat keresni a PDB könyvtárban úgynevezett felfűzési

(„threading”) algoritmusok konszenzusának segítségével (LOMETS: locally installed meta-

threading approach).

Page 25: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

25

2. A második lépesben a templátok folytonos részleteit a szerver újrailleszti teljes modellé egy

Monte Carlo-alapú eljárás segítségével. Abban az esetben, ha valamelyik fehérjerészlethez

nem talál megfelelő templátot, az I-TASSER saját maga épít egy szerkezetet ab initio

modellezéssel. Ezek után klaszterezés során határozhatók meg az legalacsonyabb

energiatartalmú állapotok a SPICKER eljárás segítségével.

3. A harmadik lépésben a szerver ismét összerakja a fragmenseket, ezúttal a klaszter

centroidokból kiindulva. Az ismétlés megismétlésének célja, hogy finomítsa a modellek

globális topológiáját. Ezek után ismét a legalacsonyabb energiájú állapotok lesznek

kiválasztva. A végső atomi modelleket a REMO algoritmus segítségével határozza meg,

melynek során a hidrogénkötés-hálózat optimalizációjával kapjuk meg a megfelelő atomi

adatokat.

4. A fehérje biológiai funkciójának meghatározásához az I-TASSER összehasonlítja a kapott

háromdimenziós modelleket 3 független adatbázis tartalmával (EC classification, GO

vocabulary, ligand-binding sites). Ebből kapjuk a végeredményt a legjobb szerkezeti

hasonlóság és a legjobb funkcionális hasonlóság együtteseként. [29]

4.14. Térszerkezeti illesztés (MAMMOTH)

Fehérjék térszerkezetének illesztésével a térben egymásnak megfelelő pozíciókat tudjuk

azonosítani a szekvenciára való tekintet nélkül. Mivel a fehérjék térszerkezete általában

konzerváltabb, mint a szekvencia, az azonosított térszerkezeti hasonlóságot szekvenciális

megfelelés hiányában is a homológia, azaz közös leszármazás jelének szokás tekinteni.

Hasonló szerkezet, különösen lokálisan, azonban kialakulhat evolúciósan függetlenül is két

fehérje között konvergens evolúció révén, a szerkezeti analógia felismerése ilyenkor a

funkcionális hozzárendelésben jelent segítséget. A megfelelő fehérjék többszörös szerkezeti

illesztésének végrehajtására a MAMMOTH-mult szervert használtam. [30]

4.15. Szerkezeti predikciók helyességének ellenőrzése (MisPred)

A MisPred szerver segítségével a szerkezeti predikciók helyességét ellenőrizhetjük. A

MisPred adatbázis olyan fehérjeszekvenciák halmaza, melyek valamilyen oknál fogva

helytelenül lettek prediktálva. Ezen az adatbázison belül kereshet a felhasználó a benne lévő

fehérjék között, vagy egy tetszőleges fehérjeszekvenciát analizálhat a ’MisPred pipeline’

segítségével. Ennek segítségével eldönthető, hogy a vizsgált szekvencia ellentmond-e

valamilyen alapvető szerkezetre vonatkozó szabálynak.

Page 26: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

26

Ilyen ellentmondásra példák:

Konfliktus a fehérjében a citoplazmatikus és extracelluláris Pfam-A domének

jelenléte, és a transzmembrán szegmens hiánya között.

Nukleáris és extracelluláris Pfam-A domének egyszerre történő előfordulása egy

multidomén fehérjében. [31]

Page 27: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

27

5. A FELADAT MEGVALÓSÍTÁSA

5.1. 16S rRNS és 23S rRNS lefordítása és hasonló, nem hipotetikus fehérjék

keresése (EMBOSS, BLAST, Glimmer, promoter keresés)

Első lépésben letöltöttem az NCBI adatbázisból az E. coli 16S rRNS és a 23S rRNS

szekvenciát, majd ezeket EMBOSS Transeq segítségével lefordítottam mind a 6 frame-ben:

így 12 szekvenciát kaptam. A 12 szekvenciához BLAST segítségével hasonló, annotált

fehérjéket kerestem (protein-protein BLAST, non-redundant protein database kiválasztása).

A találatok közül ezután azokat válogattam ki, melyek esetében a hasonlóság legalább 70%, és

a fehérje az annotáció alapján nem hipotetikus, tehát (elvileg) valóban létezik. Ezeknek a

fehérjéknek visszakerestem a kódoló szekvenciáit (+ 500 bázispárt még hozzátettem a START

kodon előtti és a STOP kodon utáni szakaszokból) NCBI-ban és a Glimmer génpredikciós

szoftverrel ellenőriztem, hogy ezen szekvenciák megfelelő szakaszai valóban kódoló

régióknak tekinthetők-e.

Ahol ez teljesült, azokat a szekvenciát kiválogattam. Ezek alkotják a későbbiekben vizsgált

fehérjék első csoportját (8 fehérje).

Erre a 8 fehérjére a prokarióta és eukarióta promoter régiókat azonosító adatbázisokban még

azt is vizsgáltam, hogy vajon a kódoló régiók várható szakaszain valóban jósolnak-e

promotereket. Pozitív eredmény esetén ezek a vizsgálatok esetlegesen tovább erősíthetik a

nem hipotetikus fehérjék tényleges létezését. [8, 12, 14, 15, 32, 33]

5.2. Alu szekvencia lefordítása és hasonló fehérjék keresése (EMBOSS, BLAST)

Egy létező Alu szekvencia konszenzusát is lefordítottam EMBOSS Transeq segítségével 6

frame-ben (Alu-Sx alcsalád). A 6 fehérjeszekvenciát szintén BLAST-tal vizsgáltam, és

mindegyikhez kiválasztottam a legjobban hasonló nem hipotetikus fehérjét.

Ezek alkotják a későbbiekben vizsgálandó fehérjék második csoportját (6 fehérje). [8, 32]

5.3. Kísérletileg bizonyított de novo fehérje vizsgálata

A vizsgált fehérjék utolsó ’csoportját’ egy darab olyan de novo fehérje alkotja, melynek

tényleges létezését laboratóriumi kísérletekkel is bizonyították. Ezt egy cikkből választottam

(A human-specific de novo protein-coding gene associated with human brain functions,

Page 28: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

28

Chuan-Yun Li et al., 2010), ’neve’ FLJ33706 (Homo sapiens). Az NCBI adatbázis ezt a

fehérjét hipotetikusként tünteti fel, pontos ’neve’ hypothetical protein FLJ33706, partial

(Homo sapiens). [7]

5.4. A fehérjekódoló szekvenciák vizsgálata, szekvenciaillesztés (BLAST)

A fehérjekódoló nukleotidszekvenciákat az NCBI adatbázisból való kikeresés után vizsgáltam.

BLAST segítségével az eredeti RNS/Alu szekvenciával szekvenciaillesztést végeztem. Ezek

után a kódoló szekvenciák elhelyezkedését vizsgáltam a teljes 16S rRNS/23S rRNS/Alu

szekvenciákban. Ennek segítségével megállapítottam, hogy a kódoló szekvenciák az eredeti

nukleinsavak mely részleteihez hasonlítanak.

Ebbe a vizsgálatba nem tartozik bele a FLJ33706 fehérje kódoló szekvenciája, hiszen itt nincs

milyen „szülő” RNS-szekvenciával illesztést végezni. [32]

5.5. A fehérjék szerkezeti tulajdonságainak megjósolása

A 15 fehérje rendezetlenségét az IUPred szerverrel prediktáltam, „long disorder” funkcióval.

A fehérjék aggregációs hajlamát a TANGO és WALTZ algoritmusokkal vizsgáltam. 4 féle

beállítással dolgoztam: „best overall performance”, „high sensitivity”, „high specificity” és

„custom”.

A transzmembrán régiók és a szignálpeptidek létezését, valamint létezésük jóságának

valószínűségét a PHOBIUS szerverrel jósoltam.

A fehérjékben szignálpeptideket is kerestem, ehhez elsősorban a SignalP szervert vettem

igénybe (a PHOBIUS is azonosít szignálpeptideket, a két módszer megerősítheti egymást).

A fehérjékben található coiled coil szerkezetek lehetséges létezését 3 féle szerverrel is

vizsgáltam: COILS, MARCOIL, MULTICOIL.

A fehérjékben doméneket SBASE segítségével kerestem. Az SBASE szerver viszonylagos

érzékenysége miatt itt a valóságban nem létező domének meghatározását is vártam, azaz

viszonylag magas 'hamis pozitív' rátára számítottam.

A szekvencián belüli lehetséges motívumokat a PROSITE szerverrel vizsgáltam. Ezek a

motívumok lehetnek teljesen függetlenek, vagy az azonosított domének részei.

A fehérjékhez rokon fehérjecsaládokat a Pfam adatbázisban kerestem.

A fentiekben meghatározott szerkezeti predikciók helyességét a MISPRED szerverrel

ellenőriztem. Abban az esetben, ha a MISPRED ellentmondást hoz ki, a fenti vizsgálati

eredmények érvénytelennek tekinthetők, vagy legalábbis erős fenntartásokkal kezelendők.

Page 29: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

29

Ezek után a 15 fehérjét I-TASSER-ben vizsgáltam. Az I-TASSER szerver segítségével

térszerkezetet jósoltam és a Protein Data Bank-ben a jóslásokból kapotthoz hasonló szerkezetű

fehérjéket kerestem.

Az egyes fehérjékhez I-TASSER-ben kapott 5 szerkezeti modellre többszörös szerkezeti

illesztést végeztem MAMMOTH-mult szerver segítségével. Azt vizsgáltam, hogy az egyes

jósolt szerkezeti modellek mennyire hasonlítanak egymásra. Ahol relatív hasonlóságot tudtam

megállapítani, ott közös doméneket kerestem PRIDE2 szerverrel. Ahol létezett közös domén,

ott ezt a domént összehasonlítottam ismert szerkezetű doménekkel, hogy található-e egyezés.

[17, 19, 23, 27, 34, 35, 36, 37, 38, 39, 40, 41]

Page 30: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

30

6. EREDMÉNYEK

6.1. A részletes vizsgálatokba bevont fehérjék adatainak összefoglalása

Az általam vizsgált 15 fehérje néhány fontos adatát a BLAST kimenetek alapján az alábbi

táblázatban foglaltam össze (NCBI azonosító, szekvenciahossz, azonosság mértéke, E érték):

23S rRNS-ből fordított

fehérjeszekvenciákhoz hasonló

fehérjék

azonosító hossz azonosság

(BLAST, %)

E érték

(BLAST)

cell wall-associated hydrolase

[Burkholderia multivorans ATCC

17616]

BAG46932.1 234 75 2,00E-91

cell wall-associated hydrolase

[Vibrio cholerae 2740-80]

ZP_01677406.1 144 88 2,00E-73

IS1 transposase InsAB, partial

[Escherichia coli ONT:H33 str.

C48/93]

ZP_23985828.1 80 95 2,00E-41

leucine rich protein

[Escherichia sp. 3_2_53FAA]

ZP_04532939.1 56 98 2,00E-26

16S rRNS-ből fordított

fehérjeszekvenciákhoz hasonló

fehérjék

azonosító hossz azonosság

(BLAST, %)

E érték

(BLAST)

ORF16-lacZ fusion protein

[Salmonella enterica subsp. enterica

serovar Choleraesuis str. SC-B67]

AAX66568.1 106 99 8,00E-43

ORF16-lacZ fusion protein

[Salmonella enterica subsp. enterica

serovar Choleraesuis str. SC-B67]

AAX67927.1 106 97 4,00E-65

Page 31: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

31

orf120a (mitochondrion) [Brassica

oleracea]

YP_004927505.1 120 89 6,1

ribosomal protein S10 [Medicago

truncatula]

XP_003588337.1 1152 69 1,00E-18

Alu szekvenciából fordított

fehérjékhez hasonló fehérjék

azonosító hossz azonosság

(BLAST, %)

E érték

(BLAST)

hCG2000782 [Homo sapiens] EAX04538.1 106 85 3,00E-18

FLJ10385 [Homo sapiens] CAG47041.1 118 73 2,00E-24

hCG2040615 [Homo sapiens] EAW63194.1 106 56 2,00E-19

hCG2023281 [Homo sapiens] EAW76711.1 108 80 3,00E-30

hCG2031845 [Homo sapiens] EAX06532.1 111 70 7,00E-23

LAMA5 protein [Homo sapiens] AAH85017.1 561 87 7,00E-28

Kísérletileg ellenőrzött de novo

fehérje

azonosító hossz azonosság

(BLAST, %)

E érték

(BLAST)

FLJ33706 [Homo sapiens] EAW76366.1 200 - -

6.1. táblázat

A részletes vizsgálatokra kiválasztott fehérjék összefoglalása

6.2. A fehérjekódoló szekvenciák szekvenciaillesztése

Az NCBI-ból kiszedett fehérjekódoló szekvenciákra szekvenciaillesztést futtattam a BLAST

szerver „align two sequences” opciójával. A 16S rRNS-ből származtatott fehérjékhez tartozó

nukleotidszekvenciákat a 16S rRNS-sel illesztettem, a 23S rRNS-ből származtatottakat a 23S

rRNS-sel, az Alu szekvenciák fordításából kapott fehérjékhez tartozó nukleotidszekvenciákat

pedig a kiindulási Alu szekvenciával illesztettem.

A szekvenciaillesztéssel azt próbáltam meghatározni, hogy az RNS-ek és Alu szekvenciákból

fordított fehérjékhez hasonló fehérjéket kódoló szakaszok hasonlítanak-e a kiindulásként

választott nukleinsavakra, vagy a hasonlóság csupán a lefordított fehérjeszekvenciák szintjén

áll fenn, így akár véletlenszerű is lehet.

Page 32: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

32

A vizsgálat során minden esetben valamilyen fokú hasonlóságot találtam a megfelelő 2

szekvencia között. A kétféle riboszomális RNS esetében a hasonlóság nagyon nagyfokú, az

Alu szekvenciánál a hasonlóság viszont csak részleges.

Az alábbi táblázat a hasonlóságok mértékeit foglalja össze:

azonosság gap E érték

cell wall-associated hydrolase

[Burkholderia multivorans ATCC 17616]

[BAG46932.1]

607/704(86%) 2/704(0%) 0

cell wall-associated hydrolase

[Vibrio cholerae 2740-80] [ZP_01677406.1]

231/285(81%) 11/285(3%) 2,00E-59

IS1 transposase InsAB, partial

[Escherichia coli ONT:H33 str. C48/93]

[ZP_23985828.1]

237/244(97%) 0/244(0%) 3,00E-119

leucine rich protein

[Escherichia sp. 3_2_53FAA]

[ZP_04532939.1]

171/171(100%)

0/171(0%) 2,00E-90

ORF16-lacZ fusion protein [Salmonella

enterica subsp. enterica serovar Choleraesuis

str. SC-B67] [AAX66568.1]

307/321 (96%) 8/321 (2%) 3,00E-148

ORF16-lacZ fusion protein [Salmonella

enterica subsp. enterica serovar Choleraesuis

str. SC-B67]

(csak a név ua.) [AAX67927.1]

317/321(99%) 0/321(0%) 4,00E-167

orf120a (mitochondrion) [Brassica oleracea]

[YP_004927505.1]

49/51(96%) 0/51(0%) 2,00E-20

ribosomal protein S10 [Medicago truncatula]

[XP_003588337.1]

231/285(81%) 11/285(3%) 2,00E-59

hCG2000782 [Homo sapiens] [EAX04538.1] 125/189(66%) 1/189(0%) 8,00E-11

0FLJ10385 [Homo sapiens] [CAG47041.1] 123/181(68%) 5/181(2%) 6,00E-13

hCG2040615 [Homo sapiens]

[EAW63194.1]

158/227(70%) 3/227(1%) 7,00E-24

hCG2023281 [Homo sapiens]

[EAW76711.1]

118/173(68%) 4/173(2%) 8,00E-11

Page 33: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

33

hCG2031845 [Homo sapiens] [EAX06532.1] 115/163(71%) 3/163(1%) 2,00E-17

LAMA5 protein [Homo sapiens]

[AAH85017.1]

140/195(72%) 2/195(1%) 3,00E-24

6.2. táblázat

A kódolószekvenciák hasonlóságának mértéke a megfelelő nukleotidszekvenciához

Az alábbi ábrákon a BLAST-tal kapott szekvenciaillesztésekre láthatók példák:

1. Nagyfokú hasonlóság:

6.2.1. ábra

A talált „leucine rich protein” kódoló szekvenciájának illesztése E. coli 23S rRNS-sel

6.2.2. ábra

A talált „IS1 transposase InsAB, partial” fehérjekódoló szekvenciájának illesztése E. coli 23S rRNS-sel

Page 34: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

34

2. Részleges hasonlóság:

6.2.3. ábra

A talált „hCG2000782” illesztése az Alu szekvenciával

6.2.4. ábra

A talált „0FLJ10385” illesztése az Alu szekvenciával

6.3. A kódoló szekvenciák helyzete a megfelelő nukleinsavakban

6.3.1. ábra

A 16S rRNS-hez hasonlító kódoló szekvenciák viszonya a teljes 16S rRNS szekvenciájához

Page 35: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

35

6.3.2. ábra

A 23S rRNS-hez hasonlító kódoló szekvenciák viszonya a teljes 23S rRNS szekvenciájához

6.3.3. ábra

Az Alu szekvenciához hasonlító kódoló szekvenciák viszonya a teljes Alu szekvenciához

6.4. Az egyes fehérjék térszerkezetének vizsgálata

A fehérjék térbeli szerkezeti preferenciáit az előző fejezetben már ismertetett pontok szerint

vizsgáltam. Az alábbi táblázatban a kapott eredményeket foglalom össze. Ahol valamelyik

vizsgált tulajdonság előfordult, vagy esetleg érdekes eredményt találtam, azt a táblázatban

szürke színnel jelöltem. Az összes alábbi megállapítás a MISPRED szerverrel ellenőrizve lett,

mely nem talált rosszul prediktált szerkezetet egyetlen fehérje esetében sem. Ugyanakkor,

mint azt lentebb kifejtem, ez nem jelenti azt, hogy az általam kapott predikciós eredmények

között egyik esetben sincs ellentmondás.

Page 36: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

36

23S rRNS-ből fordított fehérjeszekvenciákhoz

hasonló fehérjék

rendezetlenség Pfam PROSITE SBASE szignálpeptid transzmembrán

régió

aggregáció coiled coil I-TASSER

cell wall-associated hydrolase

[Burkholderia multivorans ATCC 17616]

[BAG46932.1]

- - - - - - - - -

cell wall-associated hydrolase

[Vibrio cholerae 2740-80] [ZP_01677406.1]

- - - - - - - - -

IS1 transposase InsAB, partial

[Escherichia coli ONT:H33 str. C48/93]

[ZP_23985828.1]

- - - - - - - - -

leucine rich protein

[Escherichia sp. 3_2_53FAA] [ZP_04532939.1]

- - - - - - - - -

23S rRNS-ből fordított fehérjeszekvenciákhoz

hasonló fehérjék

ORF16-lacZ fusion protein [Salmonella enterica

subsp. enterica serovar Choleraesuis str. SC-B67]

[AAX66568.1]

- - - - - - - - +

ORF16-lacZ fusion protein [Salmonella enterica

subsp. enterica serovar Choleraesuis str. SC-B67]

[AAX67927.1]

- - - - - - - - -

Page 37: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

37

orf120a (mitochondrion) [Brassica oleracea]

[YP_004927505.1]

- - - - - - - - -

ribosomal protein S10 [Medicago truncatula]

[XP_003588337.1]

- + - + - + - - -

Alu szekvenciából fordított fehérjékhez hasonló

fehérjék

hCG2000782 [Homo sapiens] [EAX04538.1] - - - - - - - - -

0FLJ10385 [Homo sapiens] [CAG47041.1] - - - - - - - - -

hCG2040615 [Homo sapiens] [EAW63194.1] - - - - - - - - -

hCG2023281 [Homo sapiens] [EAW76711.1] - - - - - - - - -

hCG2031845 [Homo sapiens] [EAX06532.1] + + + - - + - - -

LAMA5 protein [Homo sapiens] [AAH85017.1] - + - + + - - - -

Kísérletileg ellenőrzött de novo fehérje

FLJ33706 [Homo sapiens] - - - - - - - - -

6.4. táblázat

A szerkezetvizsgálatok összesített eredménye

Page 38: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

38

A rendezetlenségi profilokra nem lehet általánosítást mondani. A 15 fehérje között egyaránt

vannak olyanok, melyek majdnem végig teljesen rendezettek, és olyanok is melyeknek

egyenlő arányban vannak rendezetlen és rendezett szakaszai is. Egyetlen fehérje esetében

találtam szokatlan eredményt (hCG2031845 [Homo sapiens]), ezt a táblázatban jelöltem, és

alább kitérek rá.

A továbbiakban egyesével tárgyalom azokat a fehérjéket, melyeknél valamilyen tulajdonság

előfordult. A 8 RNS molekulából származtatott fehérje közül 7 esetben semmilyen

tulajdonságot nem tudtam bizonyosan kimutatni egyetlen vizsgált módszerrel sem, csak a

ribosomal protein S10 [Medicago truncatula] esetében kaptam pozitív eredményt.

6.4.1. Ribosomal protein S10 [Medicago truncatula] [XP_003588337.1]

Ezen fehérjénél a Pfam adatbázis azonosít egy rokon fehérjecsaládot, ez a Ribosomal S10

fehérjecsalád (ez az eredmény nem meglepő). Ez arra utal, hogy ilyen domén található a

fehérjében (ezt az SBASE is megerősíti). A PHOBIUS szerver pedig meghatároz egy

valószínűsíthető transzmembrán régiót, mely az alábbi ábrán látható (a régió pirossal van

karikázva). Ez az eredmény azonban ellentmondásban van azzal, amit az irodalomból tudunk a

riboszomális fehérjékről, ezek ugyanis rendszerint a sejt belsejében találhatók, nem a

sejtmembránban.

6.4.1.1. ábra

Ribosomal protein S10 [Medicago truncatula] fehérjében lévő transzmembrán régiók

Page 39: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

39

Az alábbi ábrán a rendezetlenségi profil és a fehérjén belül az SBASE által azonosított

domének elhelyezkedése együtt látható, valamint az, hogy melyik szakasz fordítódott a 23S

rRNS-hez hasonló kódoló szekvenciából. Ennél a fehérjénél a kódoló szekvencia több részlete

több 23S rRNS részlethez hasonlít (ezt a kódoló szekvenciák és a megfelelő nukleinsavak

szekvenciaillesztéséből valószínűsítettem), így a fehérjének is több részlete származhat a 23S

rRNS-ből, illetve az egyes, hasonlónak talált részek közötti szakaszok mutációkkal

eltávolodhattak az eredeti szekvenciától. A rendezetlenségi profil grafikonját Excel-ben

készítettem. A rendezetlenség értékének a domének területén az aminosavak többségére 0,5

alatt kellene lennie, de az alábbi ábrán is látható, hogy ez nem mindig teljesül. Azokon a

szakaszokon, ahol 0,5 feletti értékeket látunk, ott nagy valószínűséggel a valóságban nincs

domén, akkor sem, ha az SBASE megjósol egyet.

6.4.1.2. ábra

Ribosomal protein S10 [Medicago truncatula] rendezetlensége, doménei, és a hozzá tartozó 23S rRNS

szekvenciarészletek

Az Alu szekvenciából származtatott fehérjék közül 4 esetben nem tudtam semmilyen

tulajdonságot kimutatni (hCG2000782 [Homo sapiens] [EAX04538.1], 0FLJ10385 [Homo

sapiens] [CAG47041.1], hCG2040615 [Homo sapiens] [EAW63194.1], hCG2023281 [Homo

sapiens] [EAW76711.1]), a másik 2 fehérjét a továbbiakban tárgyalom.

Page 40: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

40

6.4.2. hCG2031845 [Homo sapiens] [EAX06532.1]

Ezen fehérjénél a Pfam adatbázisban 1 Pfam-A rokon fehérjecsaládot találtam: ez a GVQW –

putative binding domain (48-95 pozíciók között). Ez a rokoncsalád a GVQW – putative

binding domain, ez arra utal, hogy ebben a fehérjében egy ilyen domén található. Ezt az

SBASE azonban nem támasztja alá, természetesen lehetséges, hogy azért, mert ezt a

doméntípust nem tartalmazza a hozzárendelt háttéradatbázis.

A PHOBIUS szerverrel 2 transzmembrán régiót azonosítottam, melyet az alábbi ábra is mutat:

6.4.2.1. ábra

hCG2023281 [Homo sapiens] fehérjében lévő transzmembrán régiók

Ennél a fehérjénél kaptam az egyetlen, meglehetősen szokatlan rendezetlenségi profilt is. A

szekvencia teljes egésze nagyon nagyfokú rendezettséget mutat, jelentős részében az egyes

aminosavakhoz tartozó rendezetlenségi érték erősen közelít a nullához (a legalacsonyabb a

0.0007 a 30. pozícióban). Ez a szokatlan profil az alábbi ábrán is látható:

6.4.2.2. ábra

hCG2031845 [Homo sapiens] rendezetlenségi profilja

Page 41: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

41

Az alábbi ábrán a rendezetlenségi profil és a fehérjén belül az SBASE által azonosított

domének elhelyezkedése együtt látható, valamint az, hogy melyik szakasz fordítódott az Alu

szekvenciához hasonló kódoló szekvenciából. A rendezetlenségi profil grafikonját Excel-ben

készítettem.

6.4.2.3. ábra

hCG2031845 [Homo sapiens] rendezetlensége, doménei, és a hozzá tartozó Alu szekvenciarészlet

6.4.3. LAMA5 protein [Homo sapiens] [AAH85017.1]

Ezen fehérjénél a Pfam adatbázis 4 Pfam-A rokon fehérjecsaládot találtam (2 különbözőt),

ezek a Laminin N-terminal (Domain VI) (45-298 pozíciók között), Laminin EGF (Domains III

and V) (300-356 pozíciók között), Laminin EGF (Domains III and V) (359-426 pozíciók

között), és a Laminin EGF (Domains III and V) (429-479 pozíciók között). Ezen 4 domén

tényleges létezését megerősíti az SBASE is. Az SBASE által kapott kimenet:

ID AAH85017.1| LAMA5 protein [Homo sapiens] STANDARD; PRT; 561 AA

AC unknown;

DE DOMAIN ARCHITECTURE PREDICTED BY SBASE SVM

KW

FT DOMAIN 45 298 Laminin, N-terminal - like domain;

FT DOMAIN 300 356 EGF-like, laminin - like domain;

FT DOMAIN 359 426 EGF-like, laminin - like domain;

FT DOMAIN 429 473 EGF-like, laminin - like domain;

FT DOMAIN 498 525 Regulator of chromosome condensation, RCC1 - like domain;

FT DOMAIN 542 556 PAXNEB - like domain;

Page 42: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

42

Látható, hogy az SBASE még 2 másik domént is azonosít, de ezeket a korábban már említett

nagyfokú érzékenység miatt nem tartom megbízható találatoknak.

A PHOBIUS szerverrel egy szignálpeptidet találtam, a fehérje 1. és 35. aminosava között. A

SignalP ezt megerősíti. Az alábbi ábrán is ezt láthatjuk:

6.4.3.1. ábra

LAMA5 protein [Homo sapiens] fehérjében lévő szignálpeptid

Az alábbi ábrán a rendezetlenségi profil és a fehérjén belül az SBASE által azonosított

domének elhelyezkedése együtt látható, valamint az, hogy melyik szakasz fordítódott az Alu

szekvenciához hasonló kódoló szekvenciából. A rendezetlenségi profil grafikonját Excel-ben

készítettem.

6.4.3.2. ábra

LAMA5 protein [Homo sapiens] rendezetlensége, doménei, és a hozzá tartozó Alu szekvenciarészlet

Page 43: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

43

6.4.4. FLJ33706 [Homo sapiens] [EAW76366.1]

A laboratóriumi kísérletekkel bizonyítottan létező FLJ33706 fehérje esetén nem tudtam

egyetlen szerkezeti tulajdonságot sem alátámasztani, így ennek tényleges létezését nem tudtam

sem megerősíteni, sem cáfolni. Ennek egy oka lehet, hogy a NCBI-ban még mindig

hipotetikusként feltüntetett fehérje adatai hiányosak/hibásak az adatbázisban, de az is

előfordulhat, hogy az általam olvasott cikk szerzői követtek el valamilyen hibát a fehérje

kimutatatásánál (ezt azonban erősen kétlem). Elképzelhető még, hogy a fehérje annyira nem

hasonlít egyéb létező fehérjékhez, hogy emiatt nem voltak a predikciók sikeresek.

6.5. Az I-TASSER segítségével kapott háromdimenziós szerkezetek vizsgálata

Az I-TASSER a jelenleg ismert egyik legjobb módszer a fehérjék háromdimenziós

szerkezetének megjóslására. Ezen felül az I-TASSER segítségével meghatározhatók a Protein

Data Bank-ben található leghasonlóbb ténylegesen létező fehérjék. Ezeket az eredményeket

vizsgáltam. Ha valamelyik PDB-ben szerepelő fehérjének például hasonló funkciója van az

általam vizsgált de novo fehérjééhez, az bizonyíték lehet, hogy valóban létezik. Egy ilyen

esetet találtam, melynél a hasonló PDB fehérjék funkciója is hasonló volt, ez a cell wall-

associated hydrolase [Vibrio cholerae 2740-80]. Itt a jósolt strukturálisan hasonló fehérjék

xilanázok, melyek szintén a növényi sejtfal lebontásában játszanak szerepet.

Második lépésben az egyes fehérjékhez tartozó I-TASSER által meghatározott 5

legvalószínűbb háromdimenziós modellre szerkezeti illesztést futtattam MAMMOTH-mult

segítségével. Amennyiben léteznek egymáshoz meglehetősen hasonló háromdimenziós

szerkezetek, akkor ezekben a doméneket megvizsgáltam a PRIDE2 szerver segítségével. Ha

léteznek egyforma domének, akkor ezek tényleges előfordulásának valószínűsége megnő.

Ezen domének létezését más módszerekkel is próbáltam alátámasztani (SBASE, PDB), mely

tovább növelné ennek valószínűségét.

Összességében az I-TASSER-rel meghatározott háromdimenziós modellek egy fehérjén belül

szemmel láthatóan is jelentősen eltérnek egymástól, így ezekből az eredményekből nem

tudtam semmire következtetni. Egy esetben találtam egy fehérjéhez 2 viszonylag hasonló

modellt, melynél a PRIDE2 egy közös domént is meg tudott határozni. Ez az ORF16-lacZ

fusion protein [Salmonella enterica subsp. enterica serovar Choleraesuis str. SC-B67]

[AAX66568.1]. Ebben az esetben a PRIDE2 egy közös prokaróta SH3-like domént határoz

meg. Ezt a domént azonban sem SBASE-ben, sem Pfam-ban nem kaptam eredményül, így

tényleges létezése erősen kétségbe vonható, bár természetesen előfordulhat, hogy az I-

TASSER jóslás helyes, és egy szekvencia alapján nem azonosítható szerkezeti analógiáról van

szó.

Page 44: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

44

6.5. ábra

Az ORF16-lacZ fusion protein két viszonylag hasonló modell térszerkezete (RasMol)

Page 45: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

45

7. EREDMÉNYEK ÉRTÉKELÉSE

A fenti eredményekből látható, hogy az általam vizsgát fehérjék nagy részének tényleges

előfordulását semmilyen tulajdonság kimutatásával sem tudtam alátámasztani. A 15 esetből

mindössze 3 fehérjénél sikerült valamilyen kézzel fogható eredményre jutni, mely esetlegesen

igazolhatja létezésüket.

A szerkezeti vizsgálatok során kapott eredmények legnagyobb része negatív lett. Ennek egyik

oka lehet, hogy a fehérjék valóban nem léteznek a természetben, de részben az általam

használt adatbázisok hiányossága is lehet magyarázat. Több olyan adatbázist is használtam,

melynél csak bizonyos organizmusokban (például Homo sapiens) előforduló fehérjék

tulajdonságai vannak részletezve. A speciálisabb prokarióta fajokról (például Burkholderia

multivorans ATCC 17616) kevesebb dokumentált információt találtam. Ezt az is alátámasztja,

hogy a pozitív eredmények majdnem teljes egészét az emberi Alu konszenzus szekvenciából

származtatott fehérjék esetében kaptam, nem a prokariótákban és eukariótákban találhatókra.

Az IUPred segítségével kapott rendezetlenségi profilokból nem lehet semmilyen általános

következtetést levonni, látható, hogy a de novo fehérjék rendezetlenségére nem minden

esetben jellemző ugyanaz. Természetesen ezt nem is vártam, ugyanakkor a rendezetlenség és a

doménjóslások összhangjának hiánya komolyan megkérdőjelezi a fehérjék valódiságát.

Aggregáció-vizsgálat során egyetlen esetben sem kapunk jelentős eredményt (jelentős

eredmény alatt a hosszabb aggregálódott szakaszokat értem, mindössze 10-20 aminosav

hosszúságú aggregálódott szekvenciákat kaptam vissza TANGO-WALTZ algoritmus

használatával, és ez nem tekinthető szignifikáns eredménynek), így ez nem zárja ki a fehérjék

létezését (de meg sem erősíti). Az SBASE érzékenysége miatt számos olyan domént is

azonosíthat, mely a valóságban nincs benne a fehérjében, és láttuk, hogy mindössze 2 esetben

fordult elő, hogy az általa kapott eredményt más módszerrel is alá tudtam támasztani.

Transzmembrán régiók keresésénél pedig még ellentmondásba is ütközünk. A ribosomal S10

protein intracelluláris, a PHOBIUS mégis azonosít egy transzmembrán régiót nagy

valószínűséggel. Az I-TASSER szerver a jelenleg ismert legmagabiztosabb módja egy fehérje

háromdimenziós szerkezetének meghatározására, mégsem kapunk itt sem sok olyan

eredményt, mellyel egyértelműen meg lehetne mondani egy fehérje térbeli alakját, a legtöbb

esetben nem kaptunk konzisztens, reprodukálható eredményt.

A számítógépes módszerek alkalmazásától függetlenül egy fehérje létezésének bizonyításához

elengedhetetlen a laboratóriumi módszerek bevonása is. Ha számítógépes algoritmus

segítségével sejtésünk lesz egy fehérjéről, azt továbbra is érdemes valamilyen kísérlet

segítségével fizikailag is kimutatni. Ennek ellenére azt is láttunk, hogy attól, hogy a tudósok

Page 46: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

46

kísérlettel beláttak egy, a szervezetben előforduló fehérje létezését, az nem jelenti azt, hogy ezt

számítógép segítségével is meg tudjuk erősíteni. Az FLJ33706 [Homo sapiens] fehérje agybeli

kifejeződése és nikotin függősséggel való kapcsolata bizonyított, létezését azonban egyetlen

tulajdonság kimutatásával sem sikerült alátámasztanom.

Page 47: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

47

ÖSSZEFOGLALÁS

Jelen munka során megismertem a de novo fehérjék, két riboszomális RNS és az Alu

szekvenciák elméleti hátterét, a belőlük származtatott de novo fehérjék szerkezeti

tulajdonságait vizsgáltam, és igyekeztem tényleges létezésüket bizonyítani. Ezen felül a

vizsgálatok során használt bioinformatikai módszerek használatát is elsajátítottam.

Ilyenek voltak például a rendezetlenséget vizsgáló IUPred, az aggregációt vizsgáló TANGO-

WALTZ, a doméneket azonosító SBASE, a transzmembrán régiókat azonosító PHOBIUS, a

teljes háromdimenziós fehérjeszerkezetet megjósoló I-TASSER, és a térszerkezeti

szekvenciaillesztést végző MAMMOTH.

Ezen felül a fehérjéket kódoló nukleotidszekvenciákat is vizsgáltam BLAST segítségével, és

ezeket az eredeti nukleinsavakkal összehasonlítottam.

A kapott eredményekből igyekeztem következtetéseket levonni a de novo fehérjék tényleges

természetbeli előfordulásának gyakoriságára.

A témabejelentőben szereplő feladatkiírás részfeladatait legjobb tudásom szerint teljesítettem.

Page 48: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

48

IRODALOMJEGYZÉK

[1] http://www.termeszetvilaga.hu/szamok/tv2014/tv1403/szuper.html

[2] http://en.wikipedia.org/wiki/23S_ribosomal_RNA

[3] http://en.wikipedia.org/wiki/16S_ribosomal_RNA

[4] http://en.wikipedia.org/wiki/Ribosomal_RNA

[5] http://en.wikipedia.org/wiki/Alu_sequence

[6] Mark A. Batzer, Prescott L.Deininger. Alu repeats and human genomic diversity. Nature, 2002.

[7] Chuan-Yun Li et al. A human-specific de novo protein-coding gene associated with human brain

functions. Computational biology, 2011.

[8] http://www.ebi.ac.uk/Tools/st/emboss_transeq/

[9] http://en.wikipedia.org/wiki/BLAST

[10] Arthur L. Delcher, Kirsten A. Bratke, Edwin C. Powers and Steven L. Salzberg. Identifying

bacterial genes and endosymbiont DNA with Glimmer. Bioinformatics, 2007.

[11] http://en.wikipedia.org/wiki/GLIMMER

[12] http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi

[13] http://en.wikipedia.org/wiki/Promoter_%28genetics%29

[14] http://linux1.softberry.com/berry.phtml?topic=bprom&group=programs&subgroup=gfindb

[15] http://www.fruitfly.org/seq_tools/promoter.html

[16] Zsuzsanna Dosztányi, Veronika Csizmók, Péter Tompa and István Simon. IUPred: web server for

the prediction of intrinsically unstructured regions of proteins based on estimated energy content.

Bioinformatics, 2005, 21, 3433-3434.

[17] http://iupred.enzim.hu

[18] http://en.wikipedia.org/wiki/Protein_aggregation

[19] http://waltz.switchlab.org/

[20] http://phobius.sbc.su.se/instructions.html

[21] http://en.wikipedia.org/wiki/Transmembrane_domain

[22] http://en.wikipedia.org/wiki/Domain_%28biology%29

[23] http://hydra.icgeb.trieste.it/sbase/

[24] http://en.wikipedia.org/wiki/Coiled_coil

[25] http://en.wikipedia.org/wiki/Sequence_motif

[26] http://en.wikipedia.org/wiki/Protein_family

[27] http://pfam.xfam.org/

[28] http://en.wikipedia.org/wiki/Signal_peptide

[29] http://zhanglab.ccmb.med.umich.edu/I-TASSER/about.html

[30] http://en.wikipedia.org/wiki/Structural_alignment

[31] http://www.mispred.com/about

[32] http://blast.ncbi.nlm.nih.gov/Blast.cgi

[33] http://www.ncbi.nlm.nih.gov/

[34] http://phobius.sbc.su.se/

[35] http://www.cbs.dtu.dk/services/SignalP/

[36] http://www.expasy.org/resources/search/querytext:coiled-coils

[37] http://prosite.expasy.org/

[38] http://www.mispred.com/

[39] http://zhanglab.ccmb.med.umich.edu/I-TASSER/

[40] http://ub.cbm.uam.es/servers/mammoth/mammoth.php

[41] http://hydra.icgeb.trieste.it/pride/

Page 49: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

49

KÖSZÖNETNYILVÁNÍTÁS

A diplomamunka zárásaként szeretném megköszönni konzulensemnek, dr. Gáspári Zoltánnak

az elmúlt 3 év munkáját, hogy segítette dolgozatom elkészítését, és minden kérdésemre,

kérésemre türelmesen válaszolt.

Page 50: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

50

8. FÜGGELÉK

A korábbiakban részletesen nem tárgyalt fehérjék rendezetlenségi profiljai, és az SBASE által

azonosított lehetséges doménei láthatók az alábbi ábrákon.

8.1. ORF16-lacZ fusion protein [Salmonella enterica subsp. enterica serovar

Choleraesuis str. SC-B67] [AAX66568.1]

8.1. ábra

8.2. ORF16-lacZ fusion protein [Salmonella enterica subsp. enterica serovar

Choleraesuis str. SC-B67] [AAX67927.1]

8.2. ábra

Page 51: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

51

8.3. cell wall-associated hydrolase [Burkholderia multivorans ATCC 17616]

[BAG46932.1]

8.3. ábra

8.4. orf120a (mitochondrion) [Brassica oleracea] [YP_004927505.1]

8.4. ábra

Page 52: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

52

8.5. cell wall-associated hydrolase [Vibrio cholerae 2740-80] [ZP_01677406.1]

8.5. ábra

8.6. leucine rich protein [Escherichia sp. 3_2_53FAA] [ZP_04532939.1]

8.6. ábra

Page 53: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

53

8.7. IS1 transposase InsAB, partial [Escherichia coli ONT:H33 str. C48/93]

[ZP_23985828.1]

8.7. ábra

8.8. hCG2000782 [Homo sapiens] [EAX04538.1]

8.8. ábra

Page 54: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

54

8.9. FLJ10385 [Homo sapiens] [CAG47041.1]

8.9. ábra

8.10. hCG2040615 [Homo sapiens] [EAW63194.1]

8.10. ábra

Page 55: Nem kódoló RNS ekből potenciálisan keletkező de novo ...users.itk.ppke.hu/~kisan/MSc/Kiss-Toth_Annamaria_diploma.pdf · A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu

55

8.11. hCG2023281 [Homo sapiens] [EAW76711.1]

8.11. ábra

8.12. FLJ33706 [Homo sapiens] [EAW76366.1]

8.12. ábra