penjajaran global sekuen dna menggunakan …€¦ · dua sekuen dna tersebut adalah 83.7 % denqan...

9
ABSTRAK SeminarNasicnal dan Rapat TahunanBidangMIPA20)4 I SEMlRATA PENJAJARAN GLOBAL SEKUEN DNA MENGGUNAKAN ALGORITME NEEDLEMAN - WUNSCH GLOBAL ALIGNMENT OF DNA SEQUENCE USING NEEDLEMAN - WUNSCH ALGORITHM Agung Widyo Utomo 1.2, Wisnu Ananta Kusurna" Pusat Pelayanan Teknologi I BPPT Enjlniring Badan Pengkajian dan Penerapan Teknologi, Jakarta 1 Departernen Ilmu Komputer, Fakultas Matematika dan IImu Pen~etahuGnAlarn Institut Pertanian Bogor, Bogar 23 . Email: [email protected], Telp I Fax: (0251) 8625584 3. ABSTRACT Global alignment of DNA sequence aims to determine similarity between two DNA sequences by measuring the matching region which involves the overall nucleotides of two DNA sequences. This research implements the global alignment using Needleman- Wunsch algorithm on the sequence of Ancylostoma duodenale mitochondrion, complete genome (NC_003415.1) and the sequence of Necator americanus mitochondrion, complete genome (NC_003416.2). The result shows that the similarity of these sequences is 83.7% with 6.5% gaps The second experiment is performed using the sequence of Human papillomavirus type 134, complete genome (NC_014956.1 ) and the sequence of Human papillomavirus type 132, complete genome (NC_014955.1). The result shows that the similarity is 62.9% and gaps of 23.5%. Both results conclude that the Needleman-Wunsch could obtain higher similarity than those of GSA tree and super pairwise alignment. Keywords: global alignment, sequence alignment. Needleman - Wuncsh Tujuan penjajaran global sekuen DNA adalah mencari kemiripan dua buah sekuen DNA dengan memeriksa kecocokan seluruh nukteouca dari dua buah sekuen DNA tersebut. Pe nehuan ini mengimplementasikan penjajaran global menggunakan algoritme Needleman-Wunsch pada sekuen genom lengkap dari mitokondria Ancylostoma duor.Jenale (NC_003415.1) dan sekuen genom lengkap dari mitokondria Necator american us (NC 0034162). Hasil penjajaran memperlihatkan bahwa kemiripan antara dua sekuen DNA tersebut adalah 83.7 % denqan gap sebesar 6.5%. Pengujian selanjutnya dilakukan caca sekuen genom lengkap dari Human papillomavirus type 134 (NC_014956.1) dan sekuen ger.om lengkap dari Human papillornavirus type 132 (NC:_ 014955.1). Hasi: penjajaran menunjuxkan bahwa kemiripan antara dua sekuen tersebut adalah 62.9% dengan gap sebesar 23.5%. Kedua hasil penjajaran tersebut menuruukkan bahwa penjajaran dengan rnenqquriakan algoritrne Needleman-Wunsch menqhasilkan nilal kemiripan yang lebih tinggi dibandrnqkan dengan :nenggunakan alqontrne peruajaran global GSA tree dan super pairwrse alignment Kata kunci penjajar an global. penjajar an sekuen. Needleman-Wunsch .' 1"

Upload: others

Post on 27-Jan-2021

8 views

Category:

Documents


0 download

TRANSCRIPT

  • ABSTRAK

    SeminarNasicnal dan Rapat Tahunan BidangMIPA 20)4 I SEMlRATA

    PENJAJARAN GLOBAL SEKUEN DNA MENGGUNAKAN ALGORITMENEEDLEMAN - WUNSCH

    GLOBAL ALIGNMENT OF DNA SEQUENCE USING NEEDLEMAN - WUNSCHALGORITHM

    Agung Widyo Utomo 1.2, Wisnu Ananta Kusurna"

    Pusat Pelayanan Teknologi I BPPT EnjlniringBadan Pengkajian dan Penerapan Teknologi, Jakarta 1

    Departernen Ilmu Komputer, Fakultas Matematika dan IImuPen~etahuGnAlarnInstitut Pertanian Bogor, Bogar 2 3 .

    Email: [email protected], Telp I Fax: (0251) 8625584 3.

    ABSTRACT

    Global alignment of DNA sequence aims to determine similarity between two DNAsequences by measuring the matching region which involves the overall nucleotides oftwo DNA sequences. This research implements the global alignment using Needleman-Wunsch algorithm on the sequence of Ancylostoma duodenale mitochondrion, completegenome (NC_003415.1) and the sequence of Necator americanus mitochondrion,complete genome (NC_003416.2). The result shows that the similarity of thesesequences is 83.7% with 6.5% gaps The second experiment is performed using thesequence of Human papillomavirus type 134, complete genome (NC_014956.1 ) and thesequence of Human papillomavirus type 132, complete genome (NC_014955.1). Theresult shows that the similarity is 62.9% and gaps of 23.5%. Both results conclude thatthe Needleman-Wunsch could obtain higher similarity than those of GSA tree and superpairwise alignment.

    Keywords: global alignment, sequence alignment. Needleman - Wuncsh

    Tujuan penjajaran global sekuen DNA adalah mencari kemiripan dua buah sekuen DNAdengan memeriksa kecocokan seluruh nukteouca dari dua buah sekuen DNA tersebut.Pe nehuan ini mengimplementasikan penjajaran global menggunakan algoritmeNeedleman-Wunsch pada sekuen genom lengkap dari mitokondria Ancylostomaduor.Jenale (NC_003415.1) dan sekuen genom lengkap dari mitokondria Necatoramerican us (NC 0034162). Hasil penjajaran memperlihatkan bahwa kemiripan antaradua sekuen DNA tersebut adalah 83.7 % denqan gap sebesar 6.5%. Pengujianselanjutnya dilakukan caca sekuen genom lengkap dari Human papillomavirus type 134(NC_014956.1) dan sekuen ger.om lengkap dari Human papillornavirus type 132(NC:_ 014955.1). Hasi: penjajaran menunjuxkan bahwa kemiripan antara dua sekuentersebut adalah 62.9% dengan gap sebesar 23.5%. Kedua hasil penjajaran tersebutmenuruukkan bahwa penjajaran dengan rnenqquriakan algoritrne Needleman-Wunschmenqhasilkan nilal kemiripan yang lebih tinggi dibandrnqkan dengan :nenggunakanalqontrne peruajaran global GSA tree dan super pairwrse alignment

    Kata kunci penjajar an global. penjajar an sekuen. Needleman-Wunsch

    .' 1"

    mailto:[email protected],

  • PENOAHLJLUANSalah satu bagian terpenting dari set yClr.gmenentukan karakterist.k makhluk hidup

    adalah Ofl;A ideoxyribo nucleic acid). DNA merupakan rantai ganda dari molekulsederhana (nukleotida) yang diikat bersama-sama dalam struktur helix yang o.kenaldengan double helix. Nukleotida-nukJeotida tersebut tersusun atas empat basa nitrogenyaitu adenine, cytosine. guanine dan thymine yang dinotasikan dalam abjad A. C. G, danT [1J.

    Salan satu cara untuk menganalisis D1'JI>.adalah meJaJui perijajar an sekuen(sequence etionment). Tujuan penjajaran sekuen adalah mencari sebanyak mungkinkecocokan pada setiap subse kuen yang ioentik. sehir.gga dapat o.analisis dandisimpulkan kemiripan dua sekuen tersebut rnelalui nilai penjajarannya.

    Penjajaran sekuen DNA dapat dilakukan dengan dua cara yaitu penjajaran global(global alignment) dan penjajaran lokal (local alignment). Penjajaran global dilakukandengan melibatkan keseluruhan nukleotida dalam sekuen DNA. Adapun penjajaran lokalhanya hanya melibatkan daerah tertentu dari sekuen DNA yang memberikan nilaipenjajaran paling tinggi. Perbedaan penjajaran global dan penjajaran lokal dapat dilihatpada Gambar 1.

    Penjajar an GlobalA T T GeT C G T T G G A

    I I I I IA A ~ h C C G ,. ~ h

    Penjajaran LokalC T C G TI I I Ic - C G T

    Gambar 2 Contoh penjajaran global dan penjajaran tokal

    Penehtian penjajaran global sekuen DNA telah banyak dilakukan sebelumnya,antara lain penelitian yang dilakukan oleh Sali'i [GJdan Pantua [4J. Data yang dlgunakanuntuk percobaan pertarna adalah sekuen genom lengkap dari mitokondria Ancylostomaduodenalo (NC_ 003415.1), dan sekuen genom lengkap dari rrutokondna Necatorarnoricanus (NC_003416.2J. Data yang digunakan untuk percobaan kedua adalahsekuen genom lengkap dari Human papilloma virus type 134 (NC_014956.1) dan sekuengenom lengkap dari Human papillomavirus type 132 (NC_014955.1). Hasil penjajarancan kedua periehuan tersebut drvalidast oleh aplikasi EMBOSS (European MolecularBiology Open Software Suite) dengan tipe Needle yang rnenqqunakan algoritme~..Jeedleman-Wur.scll [3).

    Safii [6) mer.qqunakan metode dengan pendekatan heuristic yang terd.ri atastlga baqian ya.tu algor-tme penjajaran sederhana. alqoritrne perluasan untuk pencarians(I/)

  • Seminar Nasicnal dan Rapat Tahunan Bidang MIPA 2014 I SEMlRATA

    Penelitian ini akan rnenerapkan alqoritrne l - yang dukuli identifier dari sekuen dan baris keduaberupa data sekuen.

    I :r~:>-\_-~:.-~.-l-,~,-~-,~-:~-pL~:~~IS~~l.~.,;.,~,~~,:~;:~_:_~::l:,:::~:~,t:~~:\r,~:~;rl::~.:~:;',I r:"';,7,_:",1' '~~~':-.'. r:-r·.-:-.~'..:.1!-r ..·~r:'·.]..7 1"',11-:- ',:', -·~:--~ ..·I.("·_: '; .'·.:;·r:.'\AATG'7ITT i\t•••;·~r:·:-,··:-

    -: I··.T'~-;-:-~·.:",:-,,:,":·T~~"I:-r;--:;:-G,I\-:-'T-:' . ;': ':-.:-.:'·.-i-:- ; : ; ';jTGT k..':" -:- }\.:·.C;.:~.T,:,-:·~;-:·\ ::\.,\ Ti\ .~':t. :,:·:r:.'r-r:\ T ,.\j",,_: ....···./,GT i\r;T-:--:";-j":-r7"":-- ":":-,Ti"r;-r::;AGTt·\T An·;'J·:rG-:-r:

    Garnbar -1Contoh data F/I,STA

    Unluk memb.-ca /lie; bertorrnat FAS1/1, dl~JerllJkJn proses persuv; Pada r-rcse s improqr am ak.m mewlirlenl'f:kasl kcberaca '1 5111lbOi > sebagai tanda banwa bans

    ~I,'

  • tersebut merupakan baris identifier. Kernudian program akan rnenqidentilikasikeberadaan baris baru sebagai tanda dimulainya baris data sckuen. Data sekuen inilahyang akan digunakan untuk penjajaran global sekuen DNA.

    Penelitian ini menggunakan data yang sama dengan penelitian Safi'i [6J oar.Pantua [4J yaitu sekuen genom lengkap dari mitokondria Ancylostoma duodenale(NC _003415.1) dengan panjang sekuen 13 721 bp, mitokondria Necator americanus(NC_003416,2) dengar. panjang sekuen 13 605 bp, Human papilloma virus type 134(NC_014956.11 dengan panjang sekuen 7 309 bp, dan Human papilloma virus type 132(NC_014955.1) dengan panjang sekuen 7125 bp.Alqoritrne Penjajaran Global Needleman - Wunsch

    Algoritme ini ditemukan oleh Needleman dan Wunsch [2] yar.g digunakan untukmenemukan penjajaran global yang memiliki nilai optimal dari dua buah sekuen.Algoritme Needleman-Wunsch menghitung semua informasi yang terdapat pada duasekuen sehingga jika kedua sekuen itu berukuran n, maka kompleksitas waktunyaadalah O(n2). Selain itu algoritme ini menyimpan seluruh matriks pada memori sehinggakompleksitas ruangnya juga kuadratik [1J, Untuk mencari penjajaran global terbaik pad aalgoritme ini digunakan matriks penskoran (scoring matrix), Algoritme ini dibagi menjadi3 tahap, yaitu :1. InisialisasiPada tahap ini dilakukar. pemberian nilai awal pada matriks penskoran M[i,Jl Jikapanjang query sequence adalah m dan panjang reference sequence adalah n, makamatriks penskoran M[i.JJ tersebut berukuran (m+ 1)»(r: + 1). Selanjutnya baris dan kolompertama disi dengan nilai gap penalty. Gap penalty adalah nilai yang diperoleh ketikamembandingkan karakter dengan karakter kosong (gap). Pada penelitian ini ditentukangap penalty bernilai O. Con toll inisialisasi awal matriks penskoran dapat dilihat padaGambar 4.

    A T G c

    A

    Ii

    oG oc o

    Gambar 5 Contoh inisialisasi rnatriks penskoran

    2 Pengisian MatriksPada tahap pengisian rnatriks. dlhitung sernua nilai matriks dengan ketentuan seb aqaiberrkut r M[;-I.}l + IV

    M[I.J] = Max ') M[i.j-II + VIt.. M[I-I.j-II" S[I.,]

    d: mana S[/.,l adatan match/mismatch score. w adalah konstanta gap penalty dan M[/.,ladalah matnks penskor an yang akan dusi rula: yang diperotch dan ketentuan dl atasNilli penskor an yang dlglln

  • Seminar Nasional dan Rapat Tahunan Bidang MIPA 2014 I SEMlRATA

    Safi'i (2011) call Pantua (2011) maka nilai match dan mismatch yang digunakan samadengan yang digunakan pad a penelitian Safi'i [6J dan Pantua [4J. Contort rnatrikspenskoran yang telah terisi dapat dilihat pada Gombar 5.

    A T G C

    0 0 0 0 0

    A 0 9 9 9 9

    G 0 9 10 18 18 /-

    C 0 9 10 18 27

    Gambar 6 Contoh matriks penskoran yang telah terisi

    3. TracebackTraceback merupakan tahap menyusun jalur dari matriks penskoran (scorinq matrix)yang telah berisi nilai-nilai pada langkah sebelumnya. Jalur tersebut disusun dari matriksM{m+1, n+1) sampai dengan M{O,O) sehingga memiliki nilai penskoran yang maksimum.Contoh treceoec« dapat dilihat pada Gambar 6.

    A T G C

    r ;- - - 0T

  • Analisis dan EvaluasiHasil yang diperoleh dianalisis dan dievaluasi kinerjanya dengan rnernbancinqkan

    dengar. hasil penelitian lain yang menggunakan penjajaran global yaitu penelitian Safi'i[6) dan Pantua [4). Analisis berikulnya dilakukan pada penjajaran sekuen DNAmenggunakan Needleman-Wunsch yang dalanya dibangkitkan secara acak dari karakterA, C, G, dan T. Dari penjajaran tersebut dibandingkan panjang sekuen dengan waktueksekusinya untuk melihat hubungannya dengan kompleksitas algoritme.Lingkungan Pengembangan

    Penelitian ini meonbangun sebuah aplikasi menggunakan bahasa pemrogramanVisual Basic .NET dengan sistem operasi Microsoft wrncows 7 dan aplikasi MicrosoftVisual Studio 2005. Perangkat keras yang diqunakan adalah Intel Atom Dual-Core [email protected] GHz, memory 2 GB RAM, harddisk dengan kapasitas sisa 100 GB, monitorresolusi 1 366 x 768 pixel, mouse can keyboard.

    I

    HASIL DAN PEMBAHASAN

    Implernentasi Algoritme Penjajaran Global Needleman-WunschPengujian pertama dilakukan penjajaran sekuer. genom lengkap dari mitokondria

    Ancylostoma duooenete (NC_003415.1) sebagai reference sequence dengan panjangsekuen 13 721 bp den sekuen genom lengkap dari mitokondria Necator americanus(NC_003416.2) sebaqa: query sequence dengan panjang sekuen 13605 bp. Hasil daripenjajaran terse but dapat diiihat pada Tabel 1.

    Tabcl I lIasil pcnguji.m pert ama

    Nama output Hasil

    Lenqth 14 126 bp

    Slfn'larlty 11 822 (837%)

    Gaps 926 (6.5%)

    Score 107776

    Exccutton Time 115 deuk

    Pengujian kedua dilakukan penjajaran sekuen genom lengkap dari Humanpapilloma virus type 134 (NC_014956.1) sebaqai reference sequence dengan panjang 7309 bp dan sekuen genom lengkap dari Human papilloma virus type 132 (NC_014955.1)sebagai query sequence dengan panjang 7 125 bp. Hasil pengujian kedua dapat dilihatpada Tabel 2.

    Tabt:1 ~ I fast' pcnguJI:1I1 kcdua

    '\.';1111,1 "llf/'111

    !.".~,:;:

    (:.11'\

    \", "~'t

    ~

  • Seminar Nasional dan RJpatTahunan Bidang MIPA 2014 I SEMlRATA

    Analisis dan EvaluasiPada tahap ini hasil pengujian dibandingkan dengan hasil penjajaran global yang

    tetah dilakukan oleh Safi'i (6] dan Pantua (4]. Safi'i [6] menggunakan metode GSA treedan Pantua (4] menggunakan metode SPA. Kedua peneliuan tersebut mer.erapkan duakombinasi parameter yang berbeda di setiap pengujian. Kemudian kedua metodetersebut divalidasi oleh aplikasi EMBOSS Needle. Sayangnya penelitian Sali'i [6] danPantua (4) hanya rnenyajikan hasil similaritas dan gaps saja sehinyga hanya kedua haltersebut yang dapat dibandingkan. Grafik perbondingan hasil pengujian Needleman-Wunsch dengan GSA tree, SPA, dan aplikasi EMBOSS disajikan pad a Gambar 7.

    10090SO706050 ~.,10 j-30 [20100

    - _SII:lIbnly- - .Gaps

    I

    Nccdtcrmn GS,I\ Tree I(is,, Tree 2 51',\I ---Sl'.-\ 2 E~lI!OSS- Wunsch

    MctodeGambar 8 Perbandingan pengujian pertama algoritrne Needleman-Wunsch dengan

    GSA tree, SPA, dan aplikasi EMBOSS

    Pada pengujian pertama nilai simi!aritas algoritme r-leedleman-Wunsch (83.7%)lebih tinggi daripada GSA tree 1 (81.6%), GSA tree 2 (8205%), SPA 1 (76.6%), SPA 2(39.3%) dan aplikasi EMBOSS (83.1 %) yang juga menggunakan algoritme Needleman-Wunsch. Grafik perbandingan hasi! pengujian kedua ditampilkan pada Gambar 8. Padapengujian kedua algoritrr:e Needleman-Wunsch juga memiliki nilai similaritas yang lebihtinggi yaitu sebesar 62.9% daripada GSA tree 1 (56.07%). GSA tree 2 (57.9%), SPA 1(48.6%), SPA 2 (39.2%) dan aplikasi EMBOSS (56.8%).

    100

    90 IiXO I -~ 700

    1OJ 60'"~ 50e 40OJ I'""- .10 1OJc,

    10100 ;::s. --

    ~cc,jlcn1:\n (lS,\ TEl.'l.." I (1.')-\ Trl.."\' 2 ~P,\ I- \\. un-c h

    ;\Ic(od('

    Gambar 9 Perbandingan pengujian kedua alqorrtme Needleman-Wunsch dengan GSAtree, SPA. dan aplikasi EMBOSS

    Kedua penqujran tersebut rnenunjukkan alqontrne Needlernan-v\'unsch Ill'; rruhi

  • global sekuen DNA. Hal ini terjadi karena algoritme Needleman-Wunsch menggunakanseluruh informasi yang terdapat pada dua sekuen sehinqqa hasil penjajaran lebihoptirnnl Nnrnun krlrp.nrl "IQ(lritml? ini rnelakukan penjajaran denqan melibalkan scluruh

    nukleotida. maka waktu eksekusinya menjadr tarnbat.Perbandingan antara banyak sekuen dan waktu eksekusi menggunakan sekuen

    yang dibangkitkan secara acak dapat dilihat pada Gambar 9. Grafik tersebutmenunjukkan bahwa bertambahnya panjang sekuen mengakibatkan waktu eksekusimeningkat dengan tencensi kuadratik. Hal ini sesuai dengan kompleksitas waktualqoritrne Needleman-Wunsch yaitu 0(n2)

    1·10110

    ~ 100SO60·1010o

    l'~nj:lIl~ reference .\""'1I/(·lIce dun '1l1ery sequence (LJp)

    Gambar 10 Grafik waktu eksekusi terhadap panjang sekuen

    Kesimpulan

    KESIMPULAN DAN SARAN

    Dan penelitian yang telah dilakukan dalam penjajaran global sekuen DNAmenggunakan alqoritrne Needleman-Wunsch ini dapat disimpulkan sebagai berikut :1 Penerapan algoritme Needleman Wunsch pada penjajaran global sekuen DNA

    mendapatkan hasil similaritas yang tertinggi crbandinqkan GSA tree. SPA (superp eirwiso alignment). dan aphkasi EMBOSS Dengan demikian dapat dikatakanalgoritme Needleman-Wunsch memiliki hasu pcnjajaran paling optimal.

    2 Bertarnbahr.ya panjang sekuen mengakibatkan waktu eksekusi meningkat secarakuadratik sesuai dengan kompleksitas waktu alqoritrne Needleman-Wunsch.

    SaranUntuk penolitian cclonjutnya disorunkon aebaqei berikut:Menggunakan algoritme Needternan-wunscn ,ang telah dikembangkan.menerapkan matriks BLOSUM. parameter gap cpening dan gap extension.

    2 Mernbandinckan waxtu eksekusi dengan metode larn.3 Membuat otivtoqoneuc tree dari notuptc alignment me'lggunakan atocntrne

    NC'cdlemar.·WunscI1 d.padukan dengan metode ceotor star.

    DAFT AR PUSTAKA

    [1) Anmbal S. 2003 Sequence alignment alqoruhrns [tests] London (GB): School ofPhvs.cal Sciences and Enqmeerinq Klng's College

    [2: Needleman SB. Wunsd1 CD 1970 .4. gen(:ral method applicable to seal ch forsirmlaritie s 101 tho .muno

  • Serr.inar Nasional dan Rapat Tahunan Bidang MIPA 2014 I SEMlRATA

    [3) Palmenberg .4., Sgro JY. 2008. Biochemistry 711 EMBOSS Software for Seoueoce

    /snatvsit: Madison (US) : University of vvisconsin.[4) Pantua A. 2011. Implementasi super pairwise alignment pada global alignfTIent

    [skripsi]. Surabaya (10): Institut Teknologi Sepuluh November.[5) Oi ZH, Oi XO, Liu CC. 2010. New method for global alignment of 2 DNA sequences

    by the tree data structure. Journal of Theoretical Biology. 263(2)227-236. doi:

    10.1016/j.jtbi.2009. 12.012.[6) Safi'i M. 2011. Implementasi pensejajaran global sekuen ON:">.mengg unakan GSA

    tree [skripsi). Surabaya (10): Institut Teknologi Sepuluh November.[7) Sheri SY, Yao A, Hwang PI, Yang J. 2002. Super pairwise alignment (SPA): a~

    eficient approach to global alignment for hornoloqous sequences. Journa! ofComputational Biology. 9(3)477-486.