nem kódoló rns ekből potenciálisan keletkező de novo...
TRANSCRIPT
1
Nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék
azonosítása és elemzése
DIPLOMAMUNKA
Készítette:
Kiss-Tóth Annamária
Infobionika MSc
Témavezető:
dr. Gáspári Zoltán
Pázmány Péter Katolikus Egyetem
Információs Technológiai Kar
2014
2
3
PÁZMÁNY PÉTER KATOLIKUS EGYETEM
INFORMÁCIÓS TECHNOLÓGIAI ÉS BIONIKAI KAR
DIPLOMATERV-TÉMABEJELENTŐ
Név: Kiss-Tóth Annamária
Tagozat: nappali Szak: Info-bionika MSc (IMNI-IB)
Témavezető neve: Gáspári Zoltán
A dolgozat címe: Nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék
azonosítása és elemzése
A dolgozat témája
Az úgynevezett de novo fehérjék korábban nem kódoló DNS-szakaszok átírásával és
lefordításával létrejövő fehérjék. Mai tudásunk szerint ilyen fehérjék folyamatosan
keletkeznek, az emberré válás során is létrejött több ilyen fehérje. A már átíródó szakaszok,
azaz a nem kódoló RNS-ek génjei potenciálisan viszonylag könnyen adhatnak életet új
fehérjekódoló géneknek. A megcélzott vizsgálat célja ismert nem kódoló RNS-ekről
potenciálisan keletkező fehérjék azonosítása és azok részletes jellemzése térszerkezeti
predikciókkal.
Feladatok: Tekintse át a de novo fehérjekeletkezés irodalmát, különös tekintettel a nem
kódoló RNS-ekre vonatkozó esetekre! Bioinformatikai eszközökkel keressen olyan
fehérjéket, amelyek egyes kiválasztott RNS-molekulák (pl. riboszomális RNS-ek, SRP RNS
stb.) egyes szakaszainak megfelelhetnek! Ellenőrizze a találatokat génpredikciós
algoritmusokkal! Elemezze a kapott fehérjéket szerkezetpredikciós eljárásokkal, és kritikusan
elemezze az egyes feltételezhető génkeletkezési események relevanciáját! Adjon általános
értékelést a jelenség feltételezhető gyakoriságáról!
4
5
Nyilatkozat
Alulírott Kiss-Tóth Annamária, a Pázmány Péter Katolikus Egyetem Információs
Technológiai Karának hallgatója kijelentem, hogy ezt a diplomamunkát meg nem engedett
segítség nélkül, saját magam készítettem, és a diplomamunkában csak a megadott forrásokat
használtam fel. Minden olyan részt, melyet szó szerint, vagy azonos értelemben, de
átfogalmazva más forrásból átvettem, egyértelműen a forrás megadásával megjelöltem. Ezt a
diplomamunkát más szakon még nem nyújtottam be.
2014. május 20.
…………………………………
Kiss-Tóth Annamária
6
TARTALOMJEGYZÉK
TARTALOMJEGYZÉK
TARTALMI ÖSSZEFOGLALÓ
ABSTRACT
1. BEVEZETÉS
2. CÉLKITŰZÉSEK
3. ELMÉLETI BEVEZETŐ
3.1. De novo fehérjék képződése
3.2. 23S rRNS, 16S rRNS
3.3. Alu szekvenciák
3.4. FLJ33706 [Homo sapiens] fehérje
4. MÓDSZEREK
4.1. Nukleotidszekvenciák lefordítása (EMBOSS Transeq)
4.2. Hasonlóságkeresés (BLAST)
4.3. Gén predikció, kódoló régiók azonosítása (Glimmer)
4.4. Promoter régiók keresése (BPROM, Neural Network Promoter Prediction)
4.5. Rendezetlenség-vizsgálat (IUPred)
4.6. Aggregáció (TANGO-WALTZ)
4.7. Transzmembrán régiók jóslása (PHOBIUS)
4.8. Domének keresése (SBASE)
4.9. Coiled coil szerkezetek keresése (COILS, MARCOIL, MULTICOIL)
4.10. Fehérjén belüli motívumok keresése (PROSITE)
4.11. Rokon fehérjecsaládok keresése (Pfam)
4.12. Szignálpeptid keresése (SignalP)
4.13. Teljes háromdimenziós fehérjeszerkezet jóslása (I-TASSER)
4.14. Szerkezeti illesztés (MAMMOTH)
4.15. Szerkezeti predikciók helyességének ellenőrzése (MisPred)
5. A FELADAT MEGVALÓSÍTÁSA
5.1. 16S rRNS és 23S rRNS lefordítása és hasonló, nem hipotetikus fehérjék keresése
(EMBOSS, BLAST, Glimmer, promoter keresés)
5.2. Alu szekvencia lefordítása és hasonló fehérjék keresése (EMBOSS, BLAST)
5.3. Kísérletileg bizonyított de novo fehérje vizsgálata
5.4. A fehérjekódoló szekvenciák vizsgálata, szekvenciaillesztés (BLAST)
5.5. A fehérjék szerkezeti tulajdonságainak megjósolása
6
8
10
12
14
16
16
17
17
18
20
20
20
20
21
21
21
22
22
23
23
23
23
24
25
25
27
27
27
27
28
28
7
6. EREDMÉNYEK
6.1. A részletes vizsgálatokba bevont fehérjék adatainak összefoglalása
6.2. A fehérjekódoló szekvenciák szekvenciaillesztése
6.3. A kódoló szekvenciák helyzete a megfelelő nukleinsavakban
6.4. Az egyes fehérjék térszerkezetének vizsgálata
6.4.1. Ribosomal protein S10 [Medicago truncatula] [XP_003588337.1]
6.4.2. hCG2031845 [Homo sapiens] [EAX06532.1]
6.4.3. LAMA5 protein [Homo sapiens] [AAH85017.1]
6.4.4. FLJ33706 [Homo sapiens] [EAW76366.1]
6.5. Az I-TASSER segítségével kapott háromdimenziós szerkezetek vizsgálata
7. EREDMÉNYEK ÉRTÉKELÉSE
ÖSSZEFOGLALÁS
IRODALOMJEGYZÉK
KÖSZÖNETNYILVÁNÍTÁS
8. FÜGGELÉK
30
30
31
34
35
38
40
41
43
43
45
47
48
49
50
8
TARTALMI ÖSSZEFOGLALÓ
Diplomamunkám témája a nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék
azonosítása és szerkezeti preferenciáinak vizsgálata.
Először alapos irodalomkutatást végeztem mind a de novo fehérjékről, a kiindulásként
szolgáló 16S- és 23S rRNS-ekről, az Alu szekvenciákról, mind pedig az általam a vizsgálatok
során használandó bioinformatikai programokról, módszerekről. Ezt számos tudományos cikk
és internetes forrás segítségével hajtottam végre.
Ezután a potenciális de novo fehérjéket a már említett módszerekkel azonosítottam, szerkezeti
tulajdonságaikat vizsgáltam, és az ilyen módon kapott eredményekből következtetéseket
vontam le. A fehérjeazonosításokat és szerkezeti vizsgálatokat több lépésben végeztem.
Először EMBOSS Transeq segítségével 6 frame-ben lefordítottam a 16S rRNS, a 23S rRNS és
az általam választott Alu szekvenciákat. Ezután BLAST algoritmussal hasonló fehérjéket
kerestem, és a legjobb, annotált találatokkal dolgoztam tovább. A 16S rRNS-ből és a 23S
rRNS-ből származtatott fehérjék esetében ezeket a fehérjéket az NCBI adatbázisban
visszakerestem, és innen kimásoltam az őket kódoló nukleotidszekvenciákat. Glimmer
génpredikciós szerverrel megerősítettem, hogy valóban kódolószekvenciáknak tekinthetők-e.
Ahol a Glimmer pozitív eredményt hozott ki, azokkal a fehérjékkel dolgoztam tovább.
Ezekhez hozzávettem a 6 Alu szekvenciából lefordított fehérjéhez 6 leghasonlóbb annotált
fehérjét, valamint egy az irodalomból vett ténylegesen létező de novo fehérjét, és ezen
fehérjék tulajdonságait vizsgáltam részletesebben (összesen 15 fehérje).
A vizsgált tulajdonságok a következők: rendezetlenség-vizsgálat (IUPred szerver
segítségével), aggregáció-vizsgálat (TANGO-WALTZ algoritmus segítségével), domének
azonosítása (elsősorban SBASE segítségével, de más módszerekkel is, mint például Pfam),
transzmembrán régiók azonosítása (PHOBIUS szerver segítségével), lehetséges coiled coil
struktúrák azonosítása (több módszerrel is, mint COILS, MULTICOIL és MARCOIL),
fehérjén belüli motívumok vizsgálata (PROSITE szerver segítségével), rokon fehérjecsaládok
meghatározása (Pfam adatbázis segítségével), szignálpeptidek keresése (elsősorban SignalP
segítségével, de PHOBIUS szerverrel is), a teljes fehérje háromdimenziós szerkezetének
megjóslása (I-TASSER szerver segítségével), és az I-TASSER által megjósolt
háromdimenziós potenciális modellek többszörös térszerkezeti illesztése (MAMMOTH
szerver segítségével).
A szerkezeti tulajdonságok vizsgálatának segítségével igyekeztem bizonyítani, hogy ezek a
fehérjék valóban előfordulnak a természetben.
9
Ezen felül a potenciális de novo fehérjék kódolószekvenciáit is vizsgáltam BLAST algoritmust
használva. Ezeket a kódoló szekvenciákat a megfelelő 16S rRNS-hez, 23S rRNS-hez vagy az
Alu szekvenciához illesztettem. A szekvenciaillesztéssel azt próbáltam meghatározni, hogy
vajon csak a fehérjék hasonlítanak-e nagy mértékben egymáshoz, vagy az őket kódoló
nukleinsavak is.
Diplomamunkám készítése során nem csak a vizsgált fehérjékről megállapított információk
jelentettek újdonságot, de számos új, a vizsgálatokhoz szükséges bioinformatikai módszert és
algoritmus ismertem meg.
10
ABSTRACT
The topic of my thesis is identifying potentially existing de novo proteins from non-coding
RNAs and examining their structural preferences.
First and foremost, I thoroughly researched de novo proteins, 16S rRNA, 23S rRNA and Alu
sequences and the bioinformatics programs and methods I was going to use during the
examinations. To achieve this, I read a number of available articles published in scientific
journals as well as sought out several online sources.
Next, I identified the potential de novo proteins by the methods mentioned above, and studied
their structural properties. From these results conclusions could be drawn.
The protein identifications and structural examinations were carried out in several steps.
First, using EMBOSS Transeq server, I translated the 16S rRNA , 23S rRNA, and chosen Alu
sequences in all six frames. Then, with the help of BLAST algorithm I identified similar
annotated proteins and selected the best hits. After this, I obtained the coding sequences of the
proteins derived from 16S rRNA and 23S rRNA from the NCBI database. Then I submitted
these sequences in the Glimmer gen prediction server, which confirmed whether these
sequences could indeed be responsible for protein coding. In several cases Glimmer gave a
positive outcome, and I worked with these proteins further. To these proteins I added the six
best BLAST hits for the six Alu translations and one truly existing de novo protein from
literature (this means 15 proteins total).
Next, I examined the structural properties of these proteins. These properties include:
prediction of intrinsically unstructured proteins (with the help of IUPred server), prediction of
aggregated regions in the protein sequences (with the help of TANGO-WALTZ algorithm),
identification of domains (mostly with the help of SBASE, but can be confirmed with other
methods such as Pfam), identification of the transmembrane regions (with the help of
PHOBIUS server), identification of potential coiled-coil structures (using several different
methods such as COILS, MULTICOIL and MARCOIL) identification of structural motifs
within the proteins (with the help of PROSITE server), identification of protein families (with
the help of Pfam database), identification of signal peptides (mostly using SignalP server, but
PHOBIUS server can confirm as well), prediction of the three-dimensional structure of the
whole protein (with the help of I-TASSER server), multiple structural alignment of the three-
dimensional models previously predicted with I-TASSER (with the help of MAMMOTH
server).
With the help of these structural properties I tried prove these proteins really do exist in
nature.
11
In addition to the proteins, I also examined the coding nucleotide sequences of these proteins
using BLAST. I did a pairwise sequence alignment for these coding sequences and the original
16S rRNA, 23S rRNA or Alu sequences their proteins were derived from. I wanted to
determine if these sequences match as well as the proteins themselves.
During the completion of my thesis not only did I uncover information about the properties of
these potential de novo proteins, but also learned about the use of quite a few new
bioinformatics methods and algorithms.
12
1. BEVEZETÉS
Az úgynevezett de novo fehérjék korábban nem kódoló DNS szakaszok átírásával és
lefordításával létrejövő fehérjék. Mai tudásunk szerint ilyen fehérjék folyamatosan
keletkeznek, az emberré válás során is létrejött több ilyen fehérje. A DNS szakaszokról
átíródó RNS molekulák nagy része nem kódoló RNS, mely szabályzó vagy katalitikus
funkciót is betölthet. A szabályzó RNS-ek további vizsgálata izgalmas új kutatásterület. Az
RNS-ek másik csoportját alkotják a kódoló RNS-ek, melyek transzláció során fordítódnak le
fehérjékre. Ezeket nevezzük messenger RNS-eknek.
A jelenlegi kutatások alapján tudjuk, hogy a humán genom mintegy 75 százalékáról végbe
megy transzkripció, tehát valamilyen sejttípusban, illetve fejlődési stádiumban átíródik.
Feltételezhető, hogy a nem kódoló RNS-ek génjei viszonylag könnyen adhatnak életet új
fehérjekódoló géneknek, hiszen ezek esetében már „csupán” a lefordításra kell alkalmassá
válniuk. Ezen de novo gének meghatározása megkísérelhető a genomok összehasonlító
elemzésével. Génpredikciós eljárások segítségével meg lehet jósolni egy tetszőleges DNS
szakaszról, hogy aktív fehérjekódoló génnek felel-e meg. Ha a DNS szekvencia olyan
pozíciójában kapunk pozitív találatot, melyben a rokon fajoknál nem, akkor potenciális de
novo fehérjéről beszélhetünk. Ennek a fehérjének tényleges természetbeli előfordulását
azonban laboratóriumi kísérletekkel érdemes ellenőrizni, hogy a kétféle módszer megerősítse
egymást.
Mi lehet ezen fehérjék gyakorlati jelentősége? A de novo fehérjék nincsenek jelen nagy
mennyiségben a szervezetben, hiszen a kódolásukért felelős szabályozó régiók nem válnak
könnyedén optimálissá. Ugyanakkor a de novo fehérjék csak akkor maradhatnak fenn
evolúciósan, ha az egyednek valamilyen haszna származik létezésükből. Amennyiben hatásuk
káros, ez hosszabb távon az élőlény pusztulásához vezet. Az is előfordulhat (bár kis
valószínűséggel), hogy kifejezetten kedvezően befolyásolnak valamilyen sejtbeli folyamatot.
Ekkor öröklődéssel továbbvihetők az utódokba, és funkciójuk hatékonyabb betöltése
érdekében a jövőben módosulhatnak is.
Az általam végzett vizsgálatok során ilyen de novo fehérjék tényleges létezését igyekszem
kritikus vizsgálat alá vetni. Kiválasztottam két tipikus, nem fehérjekódoló RNS-t, a bakteriális
riboszóma 16S és 23S rRNS szekvenciáit, valamint az eukarióta szignálfelismerő részecske
7SL RNS-ével rokonságot mutató genomi ismétlődést, az úgynevezett Alu szekvenciákat
(ezen belül is az Alu-Sx alcsaládot). Első lépésben ezekből keletkezett potenciális de novo
fehérjéket kerestem, majd ezen fehérjéket alapos, elsősorban térszerkezeti predikciókon
13
alapuló vizsgálatnak vetettem alá. Ezeknek a vizsgálatoknak az eredményeiből esetlegesen
megerősíthetem a de novo fehérjék tényleges előfordulását, és következtethetek létezésük
gyakoriságára. [1]
14
2. CÉLKITŰZÉSEK
Diplomamunkám célkitűzései a következők:
1. A de novo fehérjék, a 16S rRNS, a 23S rRNS és az Alu szekvenciák elméleti hátterének
elsajátítása az irodalomból.
2. Az ezekből a nukleinsavszekvenciákból lefordított fehérjeszekvenciák vizsgálata, hasonló
fehérjék azonosítása bioinformatikai módszerekkel.
3. A fehérjekódoló szekvenciák vizsgálata bioinformatikai módszerekkel, szekvenciaillesztés a
megfelelő nukleinsavakkal. A kódoló szekvenciákban promoter régiók azonosítása.
4. A fehérjék szerkezeti tulajdonságainak vizsgálata. Ilyen tulajdonságok például:
rendezetlenség-vizsgálat
aggregáció-vizsgálat
coiled-coil szerkezetek vizsgálata
transzmembrán régiók vizsgálata
domének keresése
fehérjén belüli motívumok vizsgálata
rokon fehérjecsaládok vizsgálata
szignálpeptidek keresése
háromdimenziós fehérjeszerkezet vizsgálata
térszerkezeti illesztés
5. A tulajdonságok vizsgálata alapján a potenciális fehérjék közül a ténylegesen létező de novo
fehérjék azonosításának megkísérlése, az eredményekből általános következtetések levonása.
6. A tulajdonságok vizsgálatához használt bioinformatikai módszerek, programok
használatának elsajátítása. Ilyenek többek között:
EMBOSS Transeq (nukleinsavak lefordítása)
Glimmer (génpredikció)
BPROM, Neural Network Promoter Prediction (promoter régiók keresése)
BLAST (szekvenciaillesztés)
IUPred (rendezetlenség-vizsgálat)
TANGO-WALTZ algoritmus (aggregáció-vizsgálat)
SBASE (domének azonosítása)
COILS, MARCOIL, MULTICOIL (coiled coil szerkezetek azonosítása)
PHOBIUS (transzmembránrégiók jóslása)
PROSITE (fehérjén belüli motívumok keresése)
15
SignalP (szignálpeptidek keresése)
Pfam (rokon fehérjecsaládok azonosítása)
I-TASSER (háromdimenziós térszerkezeti vizsgálat)
MAMMOTH (tészerkezeti szekvenciaillesztés)
MisPred (predikciók ellenőrzése)
16
3. ELMÉLETI BEVEZETŐ
3.1. De novo fehérjék képződése
A de novo fehérjék az úgynevezett rokontalan, „árva” fehérjék (orphan proteins) egy
csoportját alkotják, ahol a rokontalanság oka az, hogy az evolúciós közelmúltban jöttek létre
korábban fehérjét nem kódoló DNS-szakaszokból. Bár ennek elméleti lehetőségét már korán
felvetették, csak az utóbbi években sikerült ilyen fehérjék meglétét megbízhatóan igazolni. Az
emberi genomban legalább három olyan fehérje található, amely nagymajmokban nem kódoló
régiónak megfelelő DNS-szakaszról fejeződik ki. A de novo fehérjék képződésének első
lépése, hogy a megfelelő szakasz RNS-re átíródjon, azaz megtörténjen a transzkripció. A
képződött RNS-nek alkalmasnak kell lennie arra, hogy a transzlációs apparátus lefordítsa.
3.1. ábra
A fehérjekódoló gének működése, fehérjeszintézis mechanizmusa [1]
E lépésenkénti mechanizmus miatt a nem fehérjekódoló RNS-ek génjei elvileg könnyebben
adhatnak életet de novo fehérjéknek. Ezen megfontolásból kiindulva több olyan fehérjekódoló
gént is feltérképeztek főemlősökben, amelyek ún. hosszú, nem kódoló RNS-ek génjeiből
alakulhattak ki. Jelen munkában annak lehetőségét vizsgálom meg, hogy riboszomális RNS-ek
génjei részt vehettek-e ilyen mechanizmusokban, azaz tudok-e olyan eseteket azonosítani, ahol
az rRNS gének teljes vagy részleges duplikációja után a keletkező új gének szert tehettek
fehérjekódoló képességre. [1]
17
3.2. 23S rRNS, 16S rRNS
A 23S rRNS a bakteriális riboszóma nagy alegységének része, az Escherichia coli
baktériumban 2904 nukleotidból áll. A riboszomális peptidil-transzferáz aktív centrum ezen
RNS V doménjében helyezkedik el. Ez a domén elsősorban azon antibiotikumok kötőhelye,
melyek gátolják a transzlációt. A transzlációt más helyeken is gátolni tudják antibiotikumok
(pontosabban elrontani), például a kis alegység kodonleolvasó mechanizmusába való
beavatkozással.
A 16S rRNS a bakteriális riboszóma kis alegységének egy komponense, 1542 nukleotid
hosszúságú (E. coli-ban). Funkciója a dekódolás, azaz a tRNS-mRNS felismerés koordinálása,
a transzláció hűségének biztosítása. [2, 3]
3.2. ábra
A riboszóma háromdimenziós modelljei (a sötétkék részek jelölik a kis alegységet, sötétpiros részek a
nagy alegységet) [4]
3.3. Alu szekvenciák
Az Alu szekvenciák rövid, elszórt elemek (SINE, Short Interspersed Nuclear Elements),
melyek megközelítőleg 300 nukleotid hosszúságúak. Több, mint 1 millió Alu szekvencia
található a humán genomban. Annak ellenére, hogy genetikailag első körben funkció
nélkülinek tekinthetőek, a legutóbbi eredmények arra utalnak, hogy az Alu elemek komoly
evolúciós hatással rendelkeznek, befolyásolják a génstruktúrákat, ez által a
fehérjeszekvenciákat, splicing motívumokat és a génkifejeződési mintázatokat. [5, 6]
18
3.3. ábra
Alu alcsaládok konszenzus szekvenciái [6]
Vizsgálataimba bevonásukat az indokolta, hogy szekvenciális rokonságot mutatnak a
szignálfelismerő részecske (signal recongition particle, SRP) RNS-komponensével, valamint
átíródott RNS-formái génszabályozási folyamatokban vesznek részt. Mindezen felül ismertek
olyan fehérjekódoló gének, amelyek kialakításában részt vesznek.
3.4. FLJ33706 [Homo sapiens] fehérje
Az emberben található FLJ33706 de novo fehérje az azonos nevű FLJ33706 de novo gén
terméke. Ezen gén több szempontból is jelentősnek tűnik a szervezetben. Elsősorban
összefüggésbe hozható a nikotin függőséggel. Az általa kódolt FLJ33706 de novo fehérje
pedig elsősorban az agyban expresszálódik, és az Alzheimer kórban szenvedő betegek
agyában megnövekedett mennyiségben mutatták ki. Ebből arra következhetünk, hogy esetleg
szerepet játszhat ennek a pusztító betegségnek a kialakulásában. A gén jelen formájának
kialakulásában Alu szekvenciák részvételét is valószínűsítették a kutatók. Ezen fehérje
tényleges létezését sikerült laboratóriumi módszerekkel is igazolni. Szerkezeti predikciós
vizsgálatokon keresztül ezt én is megpróbálom megerősíteni. [1, 7]
19
3.4. ábra
Az FLJ33706 de novo gén szerkezete [7]
20
4. MÓDSZEREK
4.1. Nukleotidszekvenciák lefordítása (EMBOSS Transeq)
Az EMBOSS Transeq online szerver egy nukleotidszekvencia (DNS vagy RNS) lefordítását
végzi fehérjeszekvenciá(k)ra. Egy nukleinsavból összesen 6 frame-ben lehet 6 különböző
fehérjeszekvenciát kapni (3 forward frame, 3 reverse frame), az EMBOSS Transeq
segítségével ezeket a szekvenciákat tudjuk meghatározni. [8]
4.2. Hasonlóságkeresés (BLAST)
A BLAST (Basic Local Alignment Search Tool) egy olyan bioinformatikai algoritmus,
melynek segítségével különböző szekvenciákat hasonlítunk össze, lokális hasonlóságokat
keresve. Leggyakoribb alkalmazásában egy tetszőleges szekvenciát bemenetként megadva az
algoritmus összehasonlítja azt egy sok szekvenciából álló adatbázissal, és abban olyan
szekvenciákat azonosít, melyek hasonlítanak rá egy bizonyos küszöb felett.
A BLAST algoritmusnak többféle megvalósítása létezik, ilyenek például a protein-protein
BLAST (fehérjeszekvenciák összehasonlítása), nukleotid-nukleotid BLAST
(nukleotidszekvenciák összehasonlítása), vagy PSI BLAST (position-specific iterative
BLAST), mely a távolabbi fehérjeevolúciós kapcsolatok felderítésére használható. A
vizsgálatok során a protein-protein BLAST-ot (blastp) használtam.
Ezen felül mindegyik BLAST alkalmazásánál többféle adatbázis választható.
Fehérjeadatbázisokra példa a non-redundant protein (nr) adatbázis, az Uniprot/Swissprot, vagy
a Protein Data Bank. [9]
4.3. Gén predikció, kódoló régiók azonosítása (Glimmer)
A gén predikció fogalma alatt azt értjük, hogy egy genomban megjósoljuk azokat a
szakaszokat, melyek a fehérjekódoló géneket tartalmazzák. Prokariótákban nincsenek, illetve
igen ritkák a génen belüli nem kódoló szakaszok (intronok), tehát a prokarióták génjei
folytatólagosak. A Glimmer (Gene Locator and Interpolated Markov ModelER) kifejezetten
olyan program, melyet baktériumok és vírusok génjeinek meghatározására fejlesztettek ki,
alapja az interpolált Markov modell. Az eddig megvizsgált prokarióta genomok legnagyobb
részének (49 %) annotációja Glimmer-rel történt, ezt követi mindössze 12 százalékkal a
Genemark.hmm, mely szintén Markov modellre épül. [10, 11]
21
4.4. Promoter régiók keresése (BPROM, Neural Network Promoter Prediction)
A promoterek olyan szakaszok a DNS-ben, melyek egy konkrét gén transzkripciójának
elindításáért felelősek, a transzkripciós starthelyeket határozzák meg. Helyileg közvetlenül a
gének előtt helyezkednek el. A prokarióták és az eukarióták közötti különbségek miatt a két
csoportra külön promoter adatbázisok és keresőprogramok léteznek. Prokariótákra a BPROM-
ot, eukariótákra a Neural Network Promoter Prediction-t használtam. [12, 13, 14, 15]
4.5. Rendezetlenség-vizsgálat (IUPred)
Az IUPred olyan program, mely egy fehérje rendezetlen szakaszainak jóslására használható. A
rendezetlen fehérjék/fehérjeszakaszok olyan szekvenciák, melyeknek nincs stabil, jól definiált
térbeli struktúrája natív körülmények között, hanem szerkezetük sok, egymásba alakuló
konformációs állapot dinamikus egyensúlyaként jellemezhető.
A módszer alapja, hogy a globuláris fehérjék a szerkezet kialakítása során számos aminosav-
aminosav kölcsönhatást létesítenek, ezek energiája ellensúlyozza a feltekeredés során
bekövetkező entrópiacsökkenést. A rendezetlen fehérjék nem képesek ilyen – megfelelő
mennyiségű és erősségű - kölcsönhatások kialakítására. A program egy beadott szekvencia
esetén ezeket a páronkénti energiákat becsüli meg és adja össze, minden egyes aminosavra,
majd a végeredményt átalakítja egy 0 és 1 közötti számmá (0: teljes rendezettség, 1: teljes
rendezetlenség). Alapesetben 0,5-nél nagyobb szám esetén az aminosav „rendezetlennek”
tekinthető. Az IUPred-ben egy szekvenciát háromféleképpen lehet vizsgálni, mindhárom
némileg eltérő paramétereket használ. A „long disorder” funkció a hosszabb (legalább 30
aminosavból álló) rendezetlen szakaszokat határozza meg, a „short disorder” rövidebb
rendezetlen szekvenciákat is keres, amelyeket az előző funkció figyelmen kívül hagy, a
„structured regions” (rendezett régiók) segítségével pedig a folyamatosan rendezett régiókat
keressük, amelyek a gyakorlatban a fehérje globuláris doménjeivel egyeznek meg. [16, 17]
4.6. Aggregáció (TANGO-WALTZ)
A fehérje-aggregáció az a jelenség, mely során a helytelenül feltekeredett fehérjék
’összetapadnak’. A fehérje-aggregátumok a jelenlegi ismereteink szerint gyakran toxikusak,
számos betegség kialakulásában játszanak fontos szerepet, mint az Alzheimer-kór, Parkinson-
kór és a prion betegségek.
A fehérjék aggregációs hajlamát többek között a TANGO-WALTZ algoritmus segítségével
vizsgálhatjuk. Ez két különböző algoritmus (TANGO és WALTZ) kombinációja. A TANGO
22
algoritmus volt az elsőként kifejlesztett aggregációt jósló algoritmus. A beadott
fehérjeszekvencia belső aggregációra való hajlamát vizsgálja, és kimenetként olyan
szakaszokat ad vissza, melyek intermolekuláris béta-lemezek kialakításával erősen hajlamosak
fehérje aggregátumok kialakítására. Ennél jelentősen újabb a WALTZ algoritmus, mely az
amyloid aggregátumok létrehozására hajlamos régiókat határozza meg a fehérjékben. Ez azért
jelentős, mert az amyloid aggregátumokat tartják felelősnek számos súlyos betegség
kialakulásért, többek között a prion betegségért is. Ezzel az algoritmussal számos fontos
aggregálódó fehérjeszakaszt azonosítottak már a tudósok, melyek nagy részének létezését már
kísérleti úton is ellenőrizték. [18, 19]
4.7. Transzmembrán régiók jóslása (PHOBIUS)
A transzmembrán domén általában egy transzmembrán fehérje egyetlen transzmembrán alfa-
hélixét jelenti. Tágabb értelemben viszont bármilyen háromdimenziós fehérjestruktúrát
jelölhet, mely termodinamikailag stabil a membránban. Ez lehet egyetlen alfa-hélix, több alfa-
hélix stabil komplexe, transzmemebrán béta-lemez, vagy valamilyen más stabil szerkezet. Egy
transzmembrán hélix általában körülbelül 20 aminosav hosszúságú.
A fehérjék potenciális transzmembrán régióinak meghatározását a PHOBIUS szerverrel
végeztem. Ez megjósolja a transzmembrán hélixek és szignálpeptidek elhelyezkedését (ha
előfordulnak) a fehérjében, és a találat jóságának valószínűségét. [20, 21]
4.8. Domének keresése (SBASE)
Definíciója szerint a domén a fehérjelánc térszerkezeti, feltekeredési és funkcionális egysége.
Szekvenciája jellegzetes konzerváltsági mintázatot mutat. Számos fehérje több szerkezeti
doménből tevődik össze. Ezen felül egy domén több különböző fehérjében is megjelenhet,
amikor ez különböző kontextusban (más domének környezetében) történik, akkor modulokról
beszélünk (ekkor a domén, azaz modul önálló evolúciós egység is. A domének így a
molekuláris evolúció építőkövei is lehetnek, mely során rekombinálódhatnak különböző
elrendezésekben, hogy különböző funkciójú fehérjék jöjjenek létre. Egy domén hossza változó
lehet, rendszerint 25 és 500 aminosav között mozog, átlagosan nagyjából 160 aminosavra
tehető.
Az SBASE olyan doménkönyvtár, melynek segítségével egy tetszőleges szekvenciában
meghatározható a benne található domének neve, és elhelyezkedése. A doménkeresés alapja
egy, a már ismert doméneket tartalmazó adatbázis, és a hasonlóság keresés (BLAST). Az
SBASE fő jellegzetessége, hogy egy-egy doméntípus sokféle képviselőjét is tartalmazza,
23
miáltal az adott család kevésbé jellegzetes tagjai is azonosíthatóvá válnak egyszerű BLAST
keresés segítségével. [22, 23]
4.9. Coiled coil szerkezetek keresése (COILS, MARCOIL, MULTICOIL)
A coiled coil egy jellegzetes motívum, ahol 2-7 alfa-hélix van ’összetekercselve’, mint egy
kötél szálai (dimerek és trimerek a leggyakoribb típusok). Egyéb, több hélixet tartalmazó
motívumoktól a hélixek közötti jellegzetes oldallánc-oldallánc kölcsönhatás különbözteti meg
(ún. 'knobs-into-holes packing'). A megfelelő szekvenciák jellegzetes, általában hét
aminosavas (heptád) ismétlődéseket tartalmaznak, a predikciós programok ezen motívum
felismerésén alapulnak. Számos coiled coil szerkezetet tartalmazó fehérje részt vesz olyan
fontos biológiai funkciókban, mint például a génexpresszió szabályozása (transzkripciós
faktorok). Ezen szerkezetek jóslását 3 különböző, más-más elméleti megfontolásokon alapuló
program segítségével végeztem, ezek a COILS, MARCOIL és a MULTICOIL. [24]
4.10. Fehérjén belüli motívumok keresése (PROSITE)
Fehérjék esetében, a szekvencia motívum egy aminosav-szekvencia minta, amely széles
körben elterjedt, és feltételezhető, hogy valamilyen biológiai jelentősége van. Tágabb
értelemben a domének is ilyen szekvenciális mintának felelnek meg, a mintázatok köre
azonban ennél lényegesen tágabb, számos funkcionális hely rendelkezik jellegzetes
mintázattal. Munkám során a PROSITE adatbázis és kereső segítségével azonosítottam a
fehérjékben található szekvenciamotívumokat. [25]
4.11. Rokon fehérjecsaládok keresése (Pfam)
A Pfam fehérjecsaládok adatbázisa, mely azok annotációját is tartalmazza. Fehérjecsalád alatt
evolúciósan rokon fehérjék egy csoportját értjük, ez gyakran szinonim a géncsaláddal is.
Minden családhoz elérhető az oda tartozó fehérjék többszörös szekvenciaillesztése is, mely
alapján HMM (Hidden Markov Model) profilokat hoztak létre. Ezek a HMM profilok
távolabbi rokon szekvenciák azonosítására is felhasználhatóak. [26, 27]
4.12. Szignálpeptid keresése (SignalP)
Általánosságban a szignálszekvenciák a fehérjék olyan szakaszai, amelyek a sejten belüli
lokalizáció meghatározásáért felelősek, és a fehérje valamelyik terminálisán vagy akár a
24
belsejében is előfordulhat, Szűkebb értelemben véve a szignálpeptid egyes fehérjék N-
terminálisának azon szakasza, amely az adott fehérje membránba épülését/szekrécióját
irányítja. A transzmembrán fehérjék azonosításához kapcsolódóan lehetséges
szignálpeptideket a SignalP és a PHOBIUS szerver segítségével is kerestem. [28]
4.13. Teljes háromdimenziós fehérjeszerkezet jóslása (I-TASSER)
Az I-TASSER szerver segítségével elsősorban egy fehérje háromdimenziós szerkezeti
modelljét tudjuk megjósolni. Jelenleg ez az egyik legjobban teljesítő predikciós eljárás erre a
célra. Ezen felül megállapítható belőle például az is, hogy a Protein Data Bank-ben található
fehérjék közül melyek struktúrája hasonlít legjobban a jósolt szerkezethez, valamint szerkezeti
analógiák alapján a szerver funkcionális hozzárendelést is jósol.
Az I-TASSER szerver működésének mechanizmusát az alábbi ábra szemlélteti:
4.13. ábra
I-TASSER működése [29]
1. Első lépésben a felhasználó egy fehérjeszekvenciát ad be. Ebből a szerver először
megpróbál illeszkedő fehérje templátokat keresni a PDB könyvtárban úgynevezett felfűzési
(„threading”) algoritmusok konszenzusának segítségével (LOMETS: locally installed meta-
threading approach).
25
2. A második lépesben a templátok folytonos részleteit a szerver újrailleszti teljes modellé egy
Monte Carlo-alapú eljárás segítségével. Abban az esetben, ha valamelyik fehérjerészlethez
nem talál megfelelő templátot, az I-TASSER saját maga épít egy szerkezetet ab initio
modellezéssel. Ezek után klaszterezés során határozhatók meg az legalacsonyabb
energiatartalmú állapotok a SPICKER eljárás segítségével.
3. A harmadik lépésben a szerver ismét összerakja a fragmenseket, ezúttal a klaszter
centroidokból kiindulva. Az ismétlés megismétlésének célja, hogy finomítsa a modellek
globális topológiáját. Ezek után ismét a legalacsonyabb energiájú állapotok lesznek
kiválasztva. A végső atomi modelleket a REMO algoritmus segítségével határozza meg,
melynek során a hidrogénkötés-hálózat optimalizációjával kapjuk meg a megfelelő atomi
adatokat.
4. A fehérje biológiai funkciójának meghatározásához az I-TASSER összehasonlítja a kapott
háromdimenziós modelleket 3 független adatbázis tartalmával (EC classification, GO
vocabulary, ligand-binding sites). Ebből kapjuk a végeredményt a legjobb szerkezeti
hasonlóság és a legjobb funkcionális hasonlóság együtteseként. [29]
4.14. Térszerkezeti illesztés (MAMMOTH)
Fehérjék térszerkezetének illesztésével a térben egymásnak megfelelő pozíciókat tudjuk
azonosítani a szekvenciára való tekintet nélkül. Mivel a fehérjék térszerkezete általában
konzerváltabb, mint a szekvencia, az azonosított térszerkezeti hasonlóságot szekvenciális
megfelelés hiányában is a homológia, azaz közös leszármazás jelének szokás tekinteni.
Hasonló szerkezet, különösen lokálisan, azonban kialakulhat evolúciósan függetlenül is két
fehérje között konvergens evolúció révén, a szerkezeti analógia felismerése ilyenkor a
funkcionális hozzárendelésben jelent segítséget. A megfelelő fehérjék többszörös szerkezeti
illesztésének végrehajtására a MAMMOTH-mult szervert használtam. [30]
4.15. Szerkezeti predikciók helyességének ellenőrzése (MisPred)
A MisPred szerver segítségével a szerkezeti predikciók helyességét ellenőrizhetjük. A
MisPred adatbázis olyan fehérjeszekvenciák halmaza, melyek valamilyen oknál fogva
helytelenül lettek prediktálva. Ezen az adatbázison belül kereshet a felhasználó a benne lévő
fehérjék között, vagy egy tetszőleges fehérjeszekvenciát analizálhat a ’MisPred pipeline’
segítségével. Ennek segítségével eldönthető, hogy a vizsgált szekvencia ellentmond-e
valamilyen alapvető szerkezetre vonatkozó szabálynak.
26
Ilyen ellentmondásra példák:
Konfliktus a fehérjében a citoplazmatikus és extracelluláris Pfam-A domének
jelenléte, és a transzmembrán szegmens hiánya között.
Nukleáris és extracelluláris Pfam-A domének egyszerre történő előfordulása egy
multidomén fehérjében. [31]
27
5. A FELADAT MEGVALÓSÍTÁSA
5.1. 16S rRNS és 23S rRNS lefordítása és hasonló, nem hipotetikus fehérjék
keresése (EMBOSS, BLAST, Glimmer, promoter keresés)
Első lépésben letöltöttem az NCBI adatbázisból az E. coli 16S rRNS és a 23S rRNS
szekvenciát, majd ezeket EMBOSS Transeq segítségével lefordítottam mind a 6 frame-ben:
így 12 szekvenciát kaptam. A 12 szekvenciához BLAST segítségével hasonló, annotált
fehérjéket kerestem (protein-protein BLAST, non-redundant protein database kiválasztása).
A találatok közül ezután azokat válogattam ki, melyek esetében a hasonlóság legalább 70%, és
a fehérje az annotáció alapján nem hipotetikus, tehát (elvileg) valóban létezik. Ezeknek a
fehérjéknek visszakerestem a kódoló szekvenciáit (+ 500 bázispárt még hozzátettem a START
kodon előtti és a STOP kodon utáni szakaszokból) NCBI-ban és a Glimmer génpredikciós
szoftverrel ellenőriztem, hogy ezen szekvenciák megfelelő szakaszai valóban kódoló
régióknak tekinthetők-e.
Ahol ez teljesült, azokat a szekvenciát kiválogattam. Ezek alkotják a későbbiekben vizsgált
fehérjék első csoportját (8 fehérje).
Erre a 8 fehérjére a prokarióta és eukarióta promoter régiókat azonosító adatbázisokban még
azt is vizsgáltam, hogy vajon a kódoló régiók várható szakaszain valóban jósolnak-e
promotereket. Pozitív eredmény esetén ezek a vizsgálatok esetlegesen tovább erősíthetik a
nem hipotetikus fehérjék tényleges létezését. [8, 12, 14, 15, 32, 33]
5.2. Alu szekvencia lefordítása és hasonló fehérjék keresése (EMBOSS, BLAST)
Egy létező Alu szekvencia konszenzusát is lefordítottam EMBOSS Transeq segítségével 6
frame-ben (Alu-Sx alcsalád). A 6 fehérjeszekvenciát szintén BLAST-tal vizsgáltam, és
mindegyikhez kiválasztottam a legjobban hasonló nem hipotetikus fehérjét.
Ezek alkotják a későbbiekben vizsgálandó fehérjék második csoportját (6 fehérje). [8, 32]
5.3. Kísérletileg bizonyított de novo fehérje vizsgálata
A vizsgált fehérjék utolsó ’csoportját’ egy darab olyan de novo fehérje alkotja, melynek
tényleges létezését laboratóriumi kísérletekkel is bizonyították. Ezt egy cikkből választottam
(A human-specific de novo protein-coding gene associated with human brain functions,
28
Chuan-Yun Li et al., 2010), ’neve’ FLJ33706 (Homo sapiens). Az NCBI adatbázis ezt a
fehérjét hipotetikusként tünteti fel, pontos ’neve’ hypothetical protein FLJ33706, partial
(Homo sapiens). [7]
5.4. A fehérjekódoló szekvenciák vizsgálata, szekvenciaillesztés (BLAST)
A fehérjekódoló nukleotidszekvenciákat az NCBI adatbázisból való kikeresés után vizsgáltam.
BLAST segítségével az eredeti RNS/Alu szekvenciával szekvenciaillesztést végeztem. Ezek
után a kódoló szekvenciák elhelyezkedését vizsgáltam a teljes 16S rRNS/23S rRNS/Alu
szekvenciákban. Ennek segítségével megállapítottam, hogy a kódoló szekvenciák az eredeti
nukleinsavak mely részleteihez hasonlítanak.
Ebbe a vizsgálatba nem tartozik bele a FLJ33706 fehérje kódoló szekvenciája, hiszen itt nincs
milyen „szülő” RNS-szekvenciával illesztést végezni. [32]
5.5. A fehérjék szerkezeti tulajdonságainak megjósolása
A 15 fehérje rendezetlenségét az IUPred szerverrel prediktáltam, „long disorder” funkcióval.
A fehérjék aggregációs hajlamát a TANGO és WALTZ algoritmusokkal vizsgáltam. 4 féle
beállítással dolgoztam: „best overall performance”, „high sensitivity”, „high specificity” és
„custom”.
A transzmembrán régiók és a szignálpeptidek létezését, valamint létezésük jóságának
valószínűségét a PHOBIUS szerverrel jósoltam.
A fehérjékben szignálpeptideket is kerestem, ehhez elsősorban a SignalP szervert vettem
igénybe (a PHOBIUS is azonosít szignálpeptideket, a két módszer megerősítheti egymást).
A fehérjékben található coiled coil szerkezetek lehetséges létezését 3 féle szerverrel is
vizsgáltam: COILS, MARCOIL, MULTICOIL.
A fehérjékben doméneket SBASE segítségével kerestem. Az SBASE szerver viszonylagos
érzékenysége miatt itt a valóságban nem létező domének meghatározását is vártam, azaz
viszonylag magas 'hamis pozitív' rátára számítottam.
A szekvencián belüli lehetséges motívumokat a PROSITE szerverrel vizsgáltam. Ezek a
motívumok lehetnek teljesen függetlenek, vagy az azonosított domének részei.
A fehérjékhez rokon fehérjecsaládokat a Pfam adatbázisban kerestem.
A fentiekben meghatározott szerkezeti predikciók helyességét a MISPRED szerverrel
ellenőriztem. Abban az esetben, ha a MISPRED ellentmondást hoz ki, a fenti vizsgálati
eredmények érvénytelennek tekinthetők, vagy legalábbis erős fenntartásokkal kezelendők.
29
Ezek után a 15 fehérjét I-TASSER-ben vizsgáltam. Az I-TASSER szerver segítségével
térszerkezetet jósoltam és a Protein Data Bank-ben a jóslásokból kapotthoz hasonló szerkezetű
fehérjéket kerestem.
Az egyes fehérjékhez I-TASSER-ben kapott 5 szerkezeti modellre többszörös szerkezeti
illesztést végeztem MAMMOTH-mult szerver segítségével. Azt vizsgáltam, hogy az egyes
jósolt szerkezeti modellek mennyire hasonlítanak egymásra. Ahol relatív hasonlóságot tudtam
megállapítani, ott közös doméneket kerestem PRIDE2 szerverrel. Ahol létezett közös domén,
ott ezt a domént összehasonlítottam ismert szerkezetű doménekkel, hogy található-e egyezés.
[17, 19, 23, 27, 34, 35, 36, 37, 38, 39, 40, 41]
30
6. EREDMÉNYEK
6.1. A részletes vizsgálatokba bevont fehérjék adatainak összefoglalása
Az általam vizsgált 15 fehérje néhány fontos adatát a BLAST kimenetek alapján az alábbi
táblázatban foglaltam össze (NCBI azonosító, szekvenciahossz, azonosság mértéke, E érték):
23S rRNS-ből fordított
fehérjeszekvenciákhoz hasonló
fehérjék
azonosító hossz azonosság
(BLAST, %)
E érték
(BLAST)
cell wall-associated hydrolase
[Burkholderia multivorans ATCC
17616]
BAG46932.1 234 75 2,00E-91
cell wall-associated hydrolase
[Vibrio cholerae 2740-80]
ZP_01677406.1 144 88 2,00E-73
IS1 transposase InsAB, partial
[Escherichia coli ONT:H33 str.
C48/93]
ZP_23985828.1 80 95 2,00E-41
leucine rich protein
[Escherichia sp. 3_2_53FAA]
ZP_04532939.1 56 98 2,00E-26
16S rRNS-ből fordított
fehérjeszekvenciákhoz hasonló
fehérjék
azonosító hossz azonosság
(BLAST, %)
E érték
(BLAST)
ORF16-lacZ fusion protein
[Salmonella enterica subsp. enterica
serovar Choleraesuis str. SC-B67]
AAX66568.1 106 99 8,00E-43
ORF16-lacZ fusion protein
[Salmonella enterica subsp. enterica
serovar Choleraesuis str. SC-B67]
AAX67927.1 106 97 4,00E-65
31
orf120a (mitochondrion) [Brassica
oleracea]
YP_004927505.1 120 89 6,1
ribosomal protein S10 [Medicago
truncatula]
XP_003588337.1 1152 69 1,00E-18
Alu szekvenciából fordított
fehérjékhez hasonló fehérjék
azonosító hossz azonosság
(BLAST, %)
E érték
(BLAST)
hCG2000782 [Homo sapiens] EAX04538.1 106 85 3,00E-18
FLJ10385 [Homo sapiens] CAG47041.1 118 73 2,00E-24
hCG2040615 [Homo sapiens] EAW63194.1 106 56 2,00E-19
hCG2023281 [Homo sapiens] EAW76711.1 108 80 3,00E-30
hCG2031845 [Homo sapiens] EAX06532.1 111 70 7,00E-23
LAMA5 protein [Homo sapiens] AAH85017.1 561 87 7,00E-28
Kísérletileg ellenőrzött de novo
fehérje
azonosító hossz azonosság
(BLAST, %)
E érték
(BLAST)
FLJ33706 [Homo sapiens] EAW76366.1 200 - -
6.1. táblázat
A részletes vizsgálatokra kiválasztott fehérjék összefoglalása
6.2. A fehérjekódoló szekvenciák szekvenciaillesztése
Az NCBI-ból kiszedett fehérjekódoló szekvenciákra szekvenciaillesztést futtattam a BLAST
szerver „align two sequences” opciójával. A 16S rRNS-ből származtatott fehérjékhez tartozó
nukleotidszekvenciákat a 16S rRNS-sel illesztettem, a 23S rRNS-ből származtatottakat a 23S
rRNS-sel, az Alu szekvenciák fordításából kapott fehérjékhez tartozó nukleotidszekvenciákat
pedig a kiindulási Alu szekvenciával illesztettem.
A szekvenciaillesztéssel azt próbáltam meghatározni, hogy az RNS-ek és Alu szekvenciákból
fordított fehérjékhez hasonló fehérjéket kódoló szakaszok hasonlítanak-e a kiindulásként
választott nukleinsavakra, vagy a hasonlóság csupán a lefordított fehérjeszekvenciák szintjén
áll fenn, így akár véletlenszerű is lehet.
32
A vizsgálat során minden esetben valamilyen fokú hasonlóságot találtam a megfelelő 2
szekvencia között. A kétféle riboszomális RNS esetében a hasonlóság nagyon nagyfokú, az
Alu szekvenciánál a hasonlóság viszont csak részleges.
Az alábbi táblázat a hasonlóságok mértékeit foglalja össze:
azonosság gap E érték
cell wall-associated hydrolase
[Burkholderia multivorans ATCC 17616]
[BAG46932.1]
607/704(86%) 2/704(0%) 0
cell wall-associated hydrolase
[Vibrio cholerae 2740-80] [ZP_01677406.1]
231/285(81%) 11/285(3%) 2,00E-59
IS1 transposase InsAB, partial
[Escherichia coli ONT:H33 str. C48/93]
[ZP_23985828.1]
237/244(97%) 0/244(0%) 3,00E-119
leucine rich protein
[Escherichia sp. 3_2_53FAA]
[ZP_04532939.1]
171/171(100%)
0/171(0%) 2,00E-90
ORF16-lacZ fusion protein [Salmonella
enterica subsp. enterica serovar Choleraesuis
str. SC-B67] [AAX66568.1]
307/321 (96%) 8/321 (2%) 3,00E-148
ORF16-lacZ fusion protein [Salmonella
enterica subsp. enterica serovar Choleraesuis
str. SC-B67]
(csak a név ua.) [AAX67927.1]
317/321(99%) 0/321(0%) 4,00E-167
orf120a (mitochondrion) [Brassica oleracea]
[YP_004927505.1]
49/51(96%) 0/51(0%) 2,00E-20
ribosomal protein S10 [Medicago truncatula]
[XP_003588337.1]
231/285(81%) 11/285(3%) 2,00E-59
hCG2000782 [Homo sapiens] [EAX04538.1] 125/189(66%) 1/189(0%) 8,00E-11
0FLJ10385 [Homo sapiens] [CAG47041.1] 123/181(68%) 5/181(2%) 6,00E-13
hCG2040615 [Homo sapiens]
[EAW63194.1]
158/227(70%) 3/227(1%) 7,00E-24
hCG2023281 [Homo sapiens]
[EAW76711.1]
118/173(68%) 4/173(2%) 8,00E-11
33
hCG2031845 [Homo sapiens] [EAX06532.1] 115/163(71%) 3/163(1%) 2,00E-17
LAMA5 protein [Homo sapiens]
[AAH85017.1]
140/195(72%) 2/195(1%) 3,00E-24
6.2. táblázat
A kódolószekvenciák hasonlóságának mértéke a megfelelő nukleotidszekvenciához
Az alábbi ábrákon a BLAST-tal kapott szekvenciaillesztésekre láthatók példák:
1. Nagyfokú hasonlóság:
6.2.1. ábra
A talált „leucine rich protein” kódoló szekvenciájának illesztése E. coli 23S rRNS-sel
6.2.2. ábra
A talált „IS1 transposase InsAB, partial” fehérjekódoló szekvenciájának illesztése E. coli 23S rRNS-sel
34
2. Részleges hasonlóság:
6.2.3. ábra
A talált „hCG2000782” illesztése az Alu szekvenciával
6.2.4. ábra
A talált „0FLJ10385” illesztése az Alu szekvenciával
6.3. A kódoló szekvenciák helyzete a megfelelő nukleinsavakban
6.3.1. ábra
A 16S rRNS-hez hasonlító kódoló szekvenciák viszonya a teljes 16S rRNS szekvenciájához
35
6.3.2. ábra
A 23S rRNS-hez hasonlító kódoló szekvenciák viszonya a teljes 23S rRNS szekvenciájához
6.3.3. ábra
Az Alu szekvenciához hasonlító kódoló szekvenciák viszonya a teljes Alu szekvenciához
6.4. Az egyes fehérjék térszerkezetének vizsgálata
A fehérjék térbeli szerkezeti preferenciáit az előző fejezetben már ismertetett pontok szerint
vizsgáltam. Az alábbi táblázatban a kapott eredményeket foglalom össze. Ahol valamelyik
vizsgált tulajdonság előfordult, vagy esetleg érdekes eredményt találtam, azt a táblázatban
szürke színnel jelöltem. Az összes alábbi megállapítás a MISPRED szerverrel ellenőrizve lett,
mely nem talált rosszul prediktált szerkezetet egyetlen fehérje esetében sem. Ugyanakkor,
mint azt lentebb kifejtem, ez nem jelenti azt, hogy az általam kapott predikciós eredmények
között egyik esetben sincs ellentmondás.
36
23S rRNS-ből fordított fehérjeszekvenciákhoz
hasonló fehérjék
rendezetlenség Pfam PROSITE SBASE szignálpeptid transzmembrán
régió
aggregáció coiled coil I-TASSER
cell wall-associated hydrolase
[Burkholderia multivorans ATCC 17616]
[BAG46932.1]
- - - - - - - - -
cell wall-associated hydrolase
[Vibrio cholerae 2740-80] [ZP_01677406.1]
- - - - - - - - -
IS1 transposase InsAB, partial
[Escherichia coli ONT:H33 str. C48/93]
[ZP_23985828.1]
- - - - - - - - -
leucine rich protein
[Escherichia sp. 3_2_53FAA] [ZP_04532939.1]
- - - - - - - - -
23S rRNS-ből fordított fehérjeszekvenciákhoz
hasonló fehérjék
ORF16-lacZ fusion protein [Salmonella enterica
subsp. enterica serovar Choleraesuis str. SC-B67]
[AAX66568.1]
- - - - - - - - +
ORF16-lacZ fusion protein [Salmonella enterica
subsp. enterica serovar Choleraesuis str. SC-B67]
[AAX67927.1]
- - - - - - - - -
37
orf120a (mitochondrion) [Brassica oleracea]
[YP_004927505.1]
- - - - - - - - -
ribosomal protein S10 [Medicago truncatula]
[XP_003588337.1]
- + - + - + - - -
Alu szekvenciából fordított fehérjékhez hasonló
fehérjék
hCG2000782 [Homo sapiens] [EAX04538.1] - - - - - - - - -
0FLJ10385 [Homo sapiens] [CAG47041.1] - - - - - - - - -
hCG2040615 [Homo sapiens] [EAW63194.1] - - - - - - - - -
hCG2023281 [Homo sapiens] [EAW76711.1] - - - - - - - - -
hCG2031845 [Homo sapiens] [EAX06532.1] + + + - - + - - -
LAMA5 protein [Homo sapiens] [AAH85017.1] - + - + + - - - -
Kísérletileg ellenőrzött de novo fehérje
FLJ33706 [Homo sapiens] - - - - - - - - -
6.4. táblázat
A szerkezetvizsgálatok összesített eredménye
38
A rendezetlenségi profilokra nem lehet általánosítást mondani. A 15 fehérje között egyaránt
vannak olyanok, melyek majdnem végig teljesen rendezettek, és olyanok is melyeknek
egyenlő arányban vannak rendezetlen és rendezett szakaszai is. Egyetlen fehérje esetében
találtam szokatlan eredményt (hCG2031845 [Homo sapiens]), ezt a táblázatban jelöltem, és
alább kitérek rá.
A továbbiakban egyesével tárgyalom azokat a fehérjéket, melyeknél valamilyen tulajdonság
előfordult. A 8 RNS molekulából származtatott fehérje közül 7 esetben semmilyen
tulajdonságot nem tudtam bizonyosan kimutatni egyetlen vizsgált módszerrel sem, csak a
ribosomal protein S10 [Medicago truncatula] esetében kaptam pozitív eredményt.
6.4.1. Ribosomal protein S10 [Medicago truncatula] [XP_003588337.1]
Ezen fehérjénél a Pfam adatbázis azonosít egy rokon fehérjecsaládot, ez a Ribosomal S10
fehérjecsalád (ez az eredmény nem meglepő). Ez arra utal, hogy ilyen domén található a
fehérjében (ezt az SBASE is megerősíti). A PHOBIUS szerver pedig meghatároz egy
valószínűsíthető transzmembrán régiót, mely az alábbi ábrán látható (a régió pirossal van
karikázva). Ez az eredmény azonban ellentmondásban van azzal, amit az irodalomból tudunk a
riboszomális fehérjékről, ezek ugyanis rendszerint a sejt belsejében találhatók, nem a
sejtmembránban.
6.4.1.1. ábra
Ribosomal protein S10 [Medicago truncatula] fehérjében lévő transzmembrán régiók
39
Az alábbi ábrán a rendezetlenségi profil és a fehérjén belül az SBASE által azonosított
domének elhelyezkedése együtt látható, valamint az, hogy melyik szakasz fordítódott a 23S
rRNS-hez hasonló kódoló szekvenciából. Ennél a fehérjénél a kódoló szekvencia több részlete
több 23S rRNS részlethez hasonlít (ezt a kódoló szekvenciák és a megfelelő nukleinsavak
szekvenciaillesztéséből valószínűsítettem), így a fehérjének is több részlete származhat a 23S
rRNS-ből, illetve az egyes, hasonlónak talált részek közötti szakaszok mutációkkal
eltávolodhattak az eredeti szekvenciától. A rendezetlenségi profil grafikonját Excel-ben
készítettem. A rendezetlenség értékének a domének területén az aminosavak többségére 0,5
alatt kellene lennie, de az alábbi ábrán is látható, hogy ez nem mindig teljesül. Azokon a
szakaszokon, ahol 0,5 feletti értékeket látunk, ott nagy valószínűséggel a valóságban nincs
domén, akkor sem, ha az SBASE megjósol egyet.
6.4.1.2. ábra
Ribosomal protein S10 [Medicago truncatula] rendezetlensége, doménei, és a hozzá tartozó 23S rRNS
szekvenciarészletek
Az Alu szekvenciából származtatott fehérjék közül 4 esetben nem tudtam semmilyen
tulajdonságot kimutatni (hCG2000782 [Homo sapiens] [EAX04538.1], 0FLJ10385 [Homo
sapiens] [CAG47041.1], hCG2040615 [Homo sapiens] [EAW63194.1], hCG2023281 [Homo
sapiens] [EAW76711.1]), a másik 2 fehérjét a továbbiakban tárgyalom.
40
6.4.2. hCG2031845 [Homo sapiens] [EAX06532.1]
Ezen fehérjénél a Pfam adatbázisban 1 Pfam-A rokon fehérjecsaládot találtam: ez a GVQW –
putative binding domain (48-95 pozíciók között). Ez a rokoncsalád a GVQW – putative
binding domain, ez arra utal, hogy ebben a fehérjében egy ilyen domén található. Ezt az
SBASE azonban nem támasztja alá, természetesen lehetséges, hogy azért, mert ezt a
doméntípust nem tartalmazza a hozzárendelt háttéradatbázis.
A PHOBIUS szerverrel 2 transzmembrán régiót azonosítottam, melyet az alábbi ábra is mutat:
6.4.2.1. ábra
hCG2023281 [Homo sapiens] fehérjében lévő transzmembrán régiók
Ennél a fehérjénél kaptam az egyetlen, meglehetősen szokatlan rendezetlenségi profilt is. A
szekvencia teljes egésze nagyon nagyfokú rendezettséget mutat, jelentős részében az egyes
aminosavakhoz tartozó rendezetlenségi érték erősen közelít a nullához (a legalacsonyabb a
0.0007 a 30. pozícióban). Ez a szokatlan profil az alábbi ábrán is látható:
6.4.2.2. ábra
hCG2031845 [Homo sapiens] rendezetlenségi profilja
41
Az alábbi ábrán a rendezetlenségi profil és a fehérjén belül az SBASE által azonosított
domének elhelyezkedése együtt látható, valamint az, hogy melyik szakasz fordítódott az Alu
szekvenciához hasonló kódoló szekvenciából. A rendezetlenségi profil grafikonját Excel-ben
készítettem.
6.4.2.3. ábra
hCG2031845 [Homo sapiens] rendezetlensége, doménei, és a hozzá tartozó Alu szekvenciarészlet
6.4.3. LAMA5 protein [Homo sapiens] [AAH85017.1]
Ezen fehérjénél a Pfam adatbázis 4 Pfam-A rokon fehérjecsaládot találtam (2 különbözőt),
ezek a Laminin N-terminal (Domain VI) (45-298 pozíciók között), Laminin EGF (Domains III
and V) (300-356 pozíciók között), Laminin EGF (Domains III and V) (359-426 pozíciók
között), és a Laminin EGF (Domains III and V) (429-479 pozíciók között). Ezen 4 domén
tényleges létezését megerősíti az SBASE is. Az SBASE által kapott kimenet:
ID AAH85017.1| LAMA5 protein [Homo sapiens] STANDARD; PRT; 561 AA
AC unknown;
DE DOMAIN ARCHITECTURE PREDICTED BY SBASE SVM
KW
FT DOMAIN 45 298 Laminin, N-terminal - like domain;
FT DOMAIN 300 356 EGF-like, laminin - like domain;
FT DOMAIN 359 426 EGF-like, laminin - like domain;
FT DOMAIN 429 473 EGF-like, laminin - like domain;
FT DOMAIN 498 525 Regulator of chromosome condensation, RCC1 - like domain;
FT DOMAIN 542 556 PAXNEB - like domain;
42
Látható, hogy az SBASE még 2 másik domént is azonosít, de ezeket a korábban már említett
nagyfokú érzékenység miatt nem tartom megbízható találatoknak.
A PHOBIUS szerverrel egy szignálpeptidet találtam, a fehérje 1. és 35. aminosava között. A
SignalP ezt megerősíti. Az alábbi ábrán is ezt láthatjuk:
6.4.3.1. ábra
LAMA5 protein [Homo sapiens] fehérjében lévő szignálpeptid
Az alábbi ábrán a rendezetlenségi profil és a fehérjén belül az SBASE által azonosított
domének elhelyezkedése együtt látható, valamint az, hogy melyik szakasz fordítódott az Alu
szekvenciához hasonló kódoló szekvenciából. A rendezetlenségi profil grafikonját Excel-ben
készítettem.
6.4.3.2. ábra
LAMA5 protein [Homo sapiens] rendezetlensége, doménei, és a hozzá tartozó Alu szekvenciarészlet
43
6.4.4. FLJ33706 [Homo sapiens] [EAW76366.1]
A laboratóriumi kísérletekkel bizonyítottan létező FLJ33706 fehérje esetén nem tudtam
egyetlen szerkezeti tulajdonságot sem alátámasztani, így ennek tényleges létezését nem tudtam
sem megerősíteni, sem cáfolni. Ennek egy oka lehet, hogy a NCBI-ban még mindig
hipotetikusként feltüntetett fehérje adatai hiányosak/hibásak az adatbázisban, de az is
előfordulhat, hogy az általam olvasott cikk szerzői követtek el valamilyen hibát a fehérje
kimutatatásánál (ezt azonban erősen kétlem). Elképzelhető még, hogy a fehérje annyira nem
hasonlít egyéb létező fehérjékhez, hogy emiatt nem voltak a predikciók sikeresek.
6.5. Az I-TASSER segítségével kapott háromdimenziós szerkezetek vizsgálata
Az I-TASSER a jelenleg ismert egyik legjobb módszer a fehérjék háromdimenziós
szerkezetének megjóslására. Ezen felül az I-TASSER segítségével meghatározhatók a Protein
Data Bank-ben található leghasonlóbb ténylegesen létező fehérjék. Ezeket az eredményeket
vizsgáltam. Ha valamelyik PDB-ben szerepelő fehérjének például hasonló funkciója van az
általam vizsgált de novo fehérjééhez, az bizonyíték lehet, hogy valóban létezik. Egy ilyen
esetet találtam, melynél a hasonló PDB fehérjék funkciója is hasonló volt, ez a cell wall-
associated hydrolase [Vibrio cholerae 2740-80]. Itt a jósolt strukturálisan hasonló fehérjék
xilanázok, melyek szintén a növényi sejtfal lebontásában játszanak szerepet.
Második lépésben az egyes fehérjékhez tartozó I-TASSER által meghatározott 5
legvalószínűbb háromdimenziós modellre szerkezeti illesztést futtattam MAMMOTH-mult
segítségével. Amennyiben léteznek egymáshoz meglehetősen hasonló háromdimenziós
szerkezetek, akkor ezekben a doméneket megvizsgáltam a PRIDE2 szerver segítségével. Ha
léteznek egyforma domének, akkor ezek tényleges előfordulásának valószínűsége megnő.
Ezen domének létezését más módszerekkel is próbáltam alátámasztani (SBASE, PDB), mely
tovább növelné ennek valószínűségét.
Összességében az I-TASSER-rel meghatározott háromdimenziós modellek egy fehérjén belül
szemmel láthatóan is jelentősen eltérnek egymástól, így ezekből az eredményekből nem
tudtam semmire következtetni. Egy esetben találtam egy fehérjéhez 2 viszonylag hasonló
modellt, melynél a PRIDE2 egy közös domént is meg tudott határozni. Ez az ORF16-lacZ
fusion protein [Salmonella enterica subsp. enterica serovar Choleraesuis str. SC-B67]
[AAX66568.1]. Ebben az esetben a PRIDE2 egy közös prokaróta SH3-like domént határoz
meg. Ezt a domént azonban sem SBASE-ben, sem Pfam-ban nem kaptam eredményül, így
tényleges létezése erősen kétségbe vonható, bár természetesen előfordulhat, hogy az I-
TASSER jóslás helyes, és egy szekvencia alapján nem azonosítható szerkezeti analógiáról van
szó.
44
6.5. ábra
Az ORF16-lacZ fusion protein két viszonylag hasonló modell térszerkezete (RasMol)
45
7. EREDMÉNYEK ÉRTÉKELÉSE
A fenti eredményekből látható, hogy az általam vizsgát fehérjék nagy részének tényleges
előfordulását semmilyen tulajdonság kimutatásával sem tudtam alátámasztani. A 15 esetből
mindössze 3 fehérjénél sikerült valamilyen kézzel fogható eredményre jutni, mely esetlegesen
igazolhatja létezésüket.
A szerkezeti vizsgálatok során kapott eredmények legnagyobb része negatív lett. Ennek egyik
oka lehet, hogy a fehérjék valóban nem léteznek a természetben, de részben az általam
használt adatbázisok hiányossága is lehet magyarázat. Több olyan adatbázist is használtam,
melynél csak bizonyos organizmusokban (például Homo sapiens) előforduló fehérjék
tulajdonságai vannak részletezve. A speciálisabb prokarióta fajokról (például Burkholderia
multivorans ATCC 17616) kevesebb dokumentált információt találtam. Ezt az is alátámasztja,
hogy a pozitív eredmények majdnem teljes egészét az emberi Alu konszenzus szekvenciából
származtatott fehérjék esetében kaptam, nem a prokariótákban és eukariótákban találhatókra.
Az IUPred segítségével kapott rendezetlenségi profilokból nem lehet semmilyen általános
következtetést levonni, látható, hogy a de novo fehérjék rendezetlenségére nem minden
esetben jellemző ugyanaz. Természetesen ezt nem is vártam, ugyanakkor a rendezetlenség és a
doménjóslások összhangjának hiánya komolyan megkérdőjelezi a fehérjék valódiságát.
Aggregáció-vizsgálat során egyetlen esetben sem kapunk jelentős eredményt (jelentős
eredmény alatt a hosszabb aggregálódott szakaszokat értem, mindössze 10-20 aminosav
hosszúságú aggregálódott szekvenciákat kaptam vissza TANGO-WALTZ algoritmus
használatával, és ez nem tekinthető szignifikáns eredménynek), így ez nem zárja ki a fehérjék
létezését (de meg sem erősíti). Az SBASE érzékenysége miatt számos olyan domént is
azonosíthat, mely a valóságban nincs benne a fehérjében, és láttuk, hogy mindössze 2 esetben
fordult elő, hogy az általa kapott eredményt más módszerrel is alá tudtam támasztani.
Transzmembrán régiók keresésénél pedig még ellentmondásba is ütközünk. A ribosomal S10
protein intracelluláris, a PHOBIUS mégis azonosít egy transzmembrán régiót nagy
valószínűséggel. Az I-TASSER szerver a jelenleg ismert legmagabiztosabb módja egy fehérje
háromdimenziós szerkezetének meghatározására, mégsem kapunk itt sem sok olyan
eredményt, mellyel egyértelműen meg lehetne mondani egy fehérje térbeli alakját, a legtöbb
esetben nem kaptunk konzisztens, reprodukálható eredményt.
A számítógépes módszerek alkalmazásától függetlenül egy fehérje létezésének bizonyításához
elengedhetetlen a laboratóriumi módszerek bevonása is. Ha számítógépes algoritmus
segítségével sejtésünk lesz egy fehérjéről, azt továbbra is érdemes valamilyen kísérlet
segítségével fizikailag is kimutatni. Ennek ellenére azt is láttunk, hogy attól, hogy a tudósok
46
kísérlettel beláttak egy, a szervezetben előforduló fehérje létezését, az nem jelenti azt, hogy ezt
számítógép segítségével is meg tudjuk erősíteni. Az FLJ33706 [Homo sapiens] fehérje agybeli
kifejeződése és nikotin függősséggel való kapcsolata bizonyított, létezését azonban egyetlen
tulajdonság kimutatásával sem sikerült alátámasztanom.
47
ÖSSZEFOGLALÁS
Jelen munka során megismertem a de novo fehérjék, két riboszomális RNS és az Alu
szekvenciák elméleti hátterét, a belőlük származtatott de novo fehérjék szerkezeti
tulajdonságait vizsgáltam, és igyekeztem tényleges létezésüket bizonyítani. Ezen felül a
vizsgálatok során használt bioinformatikai módszerek használatát is elsajátítottam.
Ilyenek voltak például a rendezetlenséget vizsgáló IUPred, az aggregációt vizsgáló TANGO-
WALTZ, a doméneket azonosító SBASE, a transzmembrán régiókat azonosító PHOBIUS, a
teljes háromdimenziós fehérjeszerkezetet megjósoló I-TASSER, és a térszerkezeti
szekvenciaillesztést végző MAMMOTH.
Ezen felül a fehérjéket kódoló nukleotidszekvenciákat is vizsgáltam BLAST segítségével, és
ezeket az eredeti nukleinsavakkal összehasonlítottam.
A kapott eredményekből igyekeztem következtetéseket levonni a de novo fehérjék tényleges
természetbeli előfordulásának gyakoriságára.
A témabejelentőben szereplő feladatkiírás részfeladatait legjobb tudásom szerint teljesítettem.
48
IRODALOMJEGYZÉK
[1] http://www.termeszetvilaga.hu/szamok/tv2014/tv1403/szuper.html
[2] http://en.wikipedia.org/wiki/23S_ribosomal_RNA
[3] http://en.wikipedia.org/wiki/16S_ribosomal_RNA
[4] http://en.wikipedia.org/wiki/Ribosomal_RNA
[5] http://en.wikipedia.org/wiki/Alu_sequence
[6] Mark A. Batzer, Prescott L.Deininger. Alu repeats and human genomic diversity. Nature, 2002.
[7] Chuan-Yun Li et al. A human-specific de novo protein-coding gene associated with human brain
functions. Computational biology, 2011.
[8] http://www.ebi.ac.uk/Tools/st/emboss_transeq/
[9] http://en.wikipedia.org/wiki/BLAST
[10] Arthur L. Delcher, Kirsten A. Bratke, Edwin C. Powers and Steven L. Salzberg. Identifying
bacterial genes and endosymbiont DNA with Glimmer. Bioinformatics, 2007.
[11] http://en.wikipedia.org/wiki/GLIMMER
[12] http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi
[13] http://en.wikipedia.org/wiki/Promoter_%28genetics%29
[14] http://linux1.softberry.com/berry.phtml?topic=bprom&group=programs&subgroup=gfindb
[15] http://www.fruitfly.org/seq_tools/promoter.html
[16] Zsuzsanna Dosztányi, Veronika Csizmók, Péter Tompa and István Simon. IUPred: web server for
the prediction of intrinsically unstructured regions of proteins based on estimated energy content.
Bioinformatics, 2005, 21, 3433-3434.
[17] http://iupred.enzim.hu
[18] http://en.wikipedia.org/wiki/Protein_aggregation
[19] http://waltz.switchlab.org/
[20] http://phobius.sbc.su.se/instructions.html
[21] http://en.wikipedia.org/wiki/Transmembrane_domain
[22] http://en.wikipedia.org/wiki/Domain_%28biology%29
[23] http://hydra.icgeb.trieste.it/sbase/
[24] http://en.wikipedia.org/wiki/Coiled_coil
[25] http://en.wikipedia.org/wiki/Sequence_motif
[26] http://en.wikipedia.org/wiki/Protein_family
[27] http://pfam.xfam.org/
[28] http://en.wikipedia.org/wiki/Signal_peptide
[29] http://zhanglab.ccmb.med.umich.edu/I-TASSER/about.html
[30] http://en.wikipedia.org/wiki/Structural_alignment
[31] http://www.mispred.com/about
[32] http://blast.ncbi.nlm.nih.gov/Blast.cgi
[33] http://www.ncbi.nlm.nih.gov/
[34] http://phobius.sbc.su.se/
[35] http://www.cbs.dtu.dk/services/SignalP/
[36] http://www.expasy.org/resources/search/querytext:coiled-coils
[37] http://prosite.expasy.org/
[38] http://www.mispred.com/
[39] http://zhanglab.ccmb.med.umich.edu/I-TASSER/
[40] http://ub.cbm.uam.es/servers/mammoth/mammoth.php
[41] http://hydra.icgeb.trieste.it/pride/
49
KÖSZÖNETNYILVÁNÍTÁS
A diplomamunka zárásaként szeretném megköszönni konzulensemnek, dr. Gáspári Zoltánnak
az elmúlt 3 év munkáját, hogy segítette dolgozatom elkészítését, és minden kérdésemre,
kérésemre türelmesen válaszolt.
50
8. FÜGGELÉK
A korábbiakban részletesen nem tárgyalt fehérjék rendezetlenségi profiljai, és az SBASE által
azonosított lehetséges doménei láthatók az alábbi ábrákon.
8.1. ORF16-lacZ fusion protein [Salmonella enterica subsp. enterica serovar
Choleraesuis str. SC-B67] [AAX66568.1]
8.1. ábra
8.2. ORF16-lacZ fusion protein [Salmonella enterica subsp. enterica serovar
Choleraesuis str. SC-B67] [AAX67927.1]
8.2. ábra
51
8.3. cell wall-associated hydrolase [Burkholderia multivorans ATCC 17616]
[BAG46932.1]
8.3. ábra
8.4. orf120a (mitochondrion) [Brassica oleracea] [YP_004927505.1]
8.4. ábra
52
8.5. cell wall-associated hydrolase [Vibrio cholerae 2740-80] [ZP_01677406.1]
8.5. ábra
8.6. leucine rich protein [Escherichia sp. 3_2_53FAA] [ZP_04532939.1]
8.6. ábra
53
8.7. IS1 transposase InsAB, partial [Escherichia coli ONT:H33 str. C48/93]
[ZP_23985828.1]
8.7. ábra
8.8. hCG2000782 [Homo sapiens] [EAX04538.1]
8.8. ábra
54
8.9. FLJ10385 [Homo sapiens] [CAG47041.1]
8.9. ábra
8.10. hCG2040615 [Homo sapiens] [EAW63194.1]
8.10. ábra
55
8.11. hCG2023281 [Homo sapiens] [EAW76711.1]
8.11. ábra
8.12. FLJ33706 [Homo sapiens] [EAW76366.1]
8.12. ábra