data mining pendekatan wtbgs dan gags

Download Data Mining Pendekatan WTBGS  dan GAGS

If you can't read please download the document

Upload: fahmi-sy

Post on 29-Jan-2016

231 views

Category:

Documents


0 download

DESCRIPTION

Datamining

TRANSCRIPT

Data mining and genetic algorithm based gene/SNP selection

Ringkasan Tujuan: Studi Genomic menyajikan volume data yang besar dengan jumlah single nucleotide polymorphisms (SNP) berkisar antara mencapai ribuan. Analisis SNP membiarkan menentukan hubungan antara genotip dan informasi fenotipik serta identifikasi SNP terkait dengan penyakit. Perkembangan kekayaan informasi dan kemajuan dalam panggilan biologi untuk pengembangan pendekatan untuk penemuan pengetahuan baru. Salah satu daerah tersebut adalah identifikasi gen pola / SNP berdampak menyembuhkan pengembangan / obat untuk berbagai penyakit. Metode: Sebuah pendekatan baru untuk memprediksi efektivitas obat disajikan. Pendekatan ini didasarkan pada data mining dan algoritma genetika. Sebuah mekanisme global pencarian, pohon keputusan tertimbang, wrapper berbasis keputusan-pohon, heuristik berbasis korelasi-dan identifikasi berpotongan set fitur yang digunakan untuk memilih gen yang signifikan. Hasil: Pendekatan pilihan fitur telah menghasilkan pengurangan 85% dari jumlah fitur. Peningkatan relatif akurasi lintas validasi dan spesifisitas untuk set gen / SNP signifikan adalah 10% dan 3,2%, masing-masing. Kesimpulan: Pendekatan pilihan fitur berhasil diterapkan untuk set data untuk obat dan subjek plasebo. Jumlah fitur telah secara signifikan mengurangi sedangkan kualitas pengetahuan ditingkatkan. Fitur mengatur pendekatan persimpangan memberikan gen yang paling signifikan / SNP. Hasil yang dilaporkan dalam makalah ini membahas asosiasi antara SNP menghasilkan protokol penanganan-pasien tertentu.

1. PerkenalanStudi genomik memberikan volume data yang besar untuk ribuan gen (segmen DNA yang mengkodekan RNA). Teknologi yang digunakan untuk memproduksi ekspresi data genom atau nukleotida tunggal polimorfisme (SNP) mahal. mengaitkan variasi yang urutan dengan fenotip yang diwariskan adalah segi kunci dalam penelitian genetik [1]. sebagian besar variasi menyebar luas perbedaan single base pair, yaitu, SNP terjadi kira-kira sekali setiap 100-300 basis. Genom manusia diperkirakan mengandung 10 juta SNP yang sekitar 300.000 memiliki variasi genetik yang signifikan [2]. Semua itu terutama bertanggung jawab untuk variasi antara manusia karena menentukan antara lainnya, warna kulit seseorang, rambut, respon imun, dan efek samping akibat obat. Mereka memberi harapan untuk secara signifikan memajukan kemampuan kita untuk memahami dan pengobatan penyakit [3]. Informasi genetik dalam DNA ditranskripsi ke RNA dan kemudian diterjemahkan ke protein, sehingga polimorfisme genetik secara tidak langsung mempengaruhi metabolisme dan disposisi dari berbagai macam obat. SNP dapat dibagi di antara kelompok orang dengan mutasi berbahaya namun tidak dikenal dan berfungsi sebagai Penanda untuk mereka. Penanda semacam itu membantu menggali mutasi dan mempercepat upaya untuk menemukan obat terapetik. Dengan demikian polimorfisme pada gen encoding (reseptor target obat) dapat mengubah farmakodinamik dari respon obat dengan mengubah sensitivitas reseptor.Profil genetik dari masing-masing individu (subjek) dapat dirakit dengan menggunakan data yang dihasilkan oleh teknologi SNP-mapping. Analisis data tersebut dapat menyebabkan gen / pola SNP yang mungkin bertanggung jawab terhadap penyakit umum serta risiko genetik. Karena biaya tinggi, satu set data yang khas (mengandung sebanyak 300.000 SNP) ini tersedia untuk jumlah subjek terbatas(500-1000 pasien). Untuk menangani data yang demikian set ada kebutuhan untuk memilih gen yang paling informatif / SNP untuk analisa lebih lanjut. Penghapusan gen tidak informatif / SNP mengurangi kebisingan, kebingungan, dan kompleksitas, dan meningkatkan peluang untuk identifikasi gen yang paling informatif, klasifikasi penyakit, dan prediksi berbagai hasil, misalnya, efektivitas dari terapi kanker.Dengan kemajuan teknologi, farmakologi molekuler, dan hubungan fungsional polimorfisme, ada kebutuhan untuk alat komputasi untuk menentukan respon obat. Alat ini diperlukan untuk menemukan asosiasi antara alel (dasar kimia seperti adenin, guanin, timin, sitosin) pada SNP yang berbeda dan antara fenotipik dan genotipik fitur.Makalah ini berfokus pada pendekatan pengurangan fitur yang bisa secara efektif diterapkan untuk SNP set data. Ini membahas Weighted Decision Tree Gen Selection(WDTGS), Genetic Algorithm-Based Gene Selection (GAGS), dan set fitur pendekatan persimpangan. Fitur berasal dari set data yang dievaluasi dalam hal akurasi cross-validasi, spesifisitas, dan sejumlah fitur terhadap set lengkap semua fitur (baseline pengukuran).

2. Latar belakangClustering, data mining identifikasi gen, dan gen regulatory network modeling digunakan untuk melakukan analisis DNA. Algoritma data mining biasanya diterapkan untuk menganalisis data ekspresi gen. Data mining adalah proses menemukan pola yang menarik dan sebelumnya tidak dikenal di set data [15]. Penekankan utama pada data mining adalah pada subjek individu daripada populasi, memberikan jalan bagi personalisasi Beberapa teknik komputasi telah diterapkan untuk masalah klasifikasi ekspresi gen, termasuk analisis Fisher linier diskriminan, k nearest neighbor, decision tree, multi-layer perceptron, Support Vector Macine, Self-Organizing maps, hirarkis clustering, dan grafik pendekatan teori (graph theoretic approaches).Tujuan seleksi fitur adalah untuk mengidentifikasi set minimal fitur non-redundant (misalnya, SNP, gen) yang berguna dalam klasifikasi [5]. Hal ini dapat dicapai melalui berbagai metode supervised dan unsepervised seperti analisis Neighboard, korelasi Pearson, Korelasi Spearman, koefisien cosinus, gain informasi, informasi timbal balik, dan sinyal untuk rasio kebisingan [8], clustering [5], analisis komponen utama, menggabungkan fitur (yaitu, menciptakan fitur hybrid), analisis independen komponen [23], supervised pengurangan fitur dengan iteratif menerapkan pengelompokan supervised (klasifikasi) algoritma, dan menghilangkan fitur berat terendah. Gen DNA set ekspresi data dipangkas dengan menghilangkan fitur yang tidak signifikan. Hasil penelitian yang dilakukan untuk menyelidiki distribusi SNP pada gen CAPN10 dalam populasi Cina dan dampaknya terhadap diabetes mellitus tipe dua pada orang Han dari Cina Utara dilaporkan. The transmission-disequilibrium test (TDT) and sib transmission-disequilibrium test (STDT) diaplikasikan untuk menganalisis SNP. Mereka menggunakan teknik statistik untuk menguji SNP dan menentukan bahwa tidak ada perbedaan statistik yang signifikan antara dua kelompok etnis berdasarkan gen CAPN10. Hal tersebut meneliti gen pra-dipilih dan sesuai SNP daripada menyelidiki semua gen potensial / SNP.Ada kebutuhan untuk mengembangkan prosedur yang dimulai dengan pengumpulan urutan dan berakhir dengan penciptaan SNP set data. Beberapa strategi baik eksperimental dan berdasarkan intelijen komputasi telah dirancang untuk SNP penemuan dan pemetaan. Penemuan SNP eksperimental memerlukan prosedur eksperimental sulit, rumit, dan mahal. Empat eksperimental metode utama SNP penemuan adalah identifikasi polimorfisme tunggal untai konformasi (SSCPs), analisis heterodupleks, sekuensing DNA langsung, dan detektor varian array (VDAS).Penemuan intelijen berbasis komputasi menggunakan set data skala besar dengan informasi SNP yang mungkin telah dihasilkan untuk keperluan lain, misalnya, studi klinis rutin. Pendekatan pilihan fitur seperti analisis komponen utama, gain informasi, algoritma clustering, dan regresi dapat dilaksanakan tetapi tidak dapat memberikan solusi yang terbaik.Untuk mengidentifikasi SNP yang paling informatif, ada kebutuhan untuk mekanisme pencarian global (algoritma genetika (GA) [27-30]) ditambah dengan pohon keputusan [31], ahli domain, dan proses identifikasi multi-angle. Para ahli domain dapat memberikan pengetahuan penting untuk penyaringan gen / SNP sedangkan proses identifikasi multi-angle memanfaatkan model komputasi dan eksperimental untuk mengidentifikasi dan memvalidasi gen signifikan / SNP. Pendekatan yang diusulkan menyediakan fungsionalitas tersebut.

3. Pendekatan yang diusulkanSebuah data yang khas diatur dalam industri farmasi meliputi data untuk obat dan subjek plasebo, subjek normal dan abnormal, dan genotipik dan fenotipik data. Tujuan dari penelitian yang dilaporkan dalam makalah ini adalah untuk memperoleh fitur yang paling signifikan yang mencerminkan interaksi terbaik antara genotip dan data fenotipik, efektivitas obat, dan pemulihan alami (perbaikan plasebo terkait) gen / SNP. Tiga pendekatan utama yang diusulkan, yaitu WDTGS, GAGS, dan set fitur pendekatan persimpangan.

3.1. Weighted decision-tree-based gene selection (WDTGS)Partisi satu set data ke dalam obat dan plasebo mata pelajaran, penerapan algoritma data mining, dan dengan menggunakan berbagai skema tertimbang memulai pendekatan WDTGS. Hal ini menyebabkan pengidentifikasian signifikan gen / SNP mengatur per skema tertimbang. Akhirnya, set paling gen signifikan ditentukan oleh berpotongan semua gen yang signifikan / SNP set.

Set data awalnya dipartisi dalam plasebo dan kategori obat. Analisis ini dilakukan secara independen untuk setiap set dengan variabel keputusan sebagai ukuran (misalnya, nilai tes, temuan laboratorium, dll) perbaikan dari waktu ke waktu (yaitu, nilai keputusan 1/4 ukuran akhir langkah awal?) (Lihat Langkah 1 dari Gambar. 1). Keputusan discretized (Baik dan Buruk) untuk plasebo dan obat set dipertimbangkan.

Pada Langkah 1 (Gbr. 1) satu set data dibentuk untuk setiap gen dengan lebih dari 3-5 SNP dan fitur keputusan. Algoritma pohon-keputusan diterapkan pada Langkah 2 (Gambar 1.), Yang menghasilkan aturan dalam format berikut:

Klasifikasi dan akurasi prediksi yang digunakan dalam data mining sebagai metrik kualitas. Dalam makalah ini, akurasi klasifikasi didefinisikan sebagai kemampuan gen untuk menjelaskan kumpulan data '' pelatihan '' terbaik . Sedangkan akurasi prediksi (dengan hasil 10 kali lipat cross-validasi) didefinisikan sebagai kemampuan gen untuk secara akurat memprediksi data set '' test ''. Misalnya, untuk kumpulan data yang mengandung gen USP akurasi klasifikasi 71,49%, sedangkan akurasi prediksi adalah 56,09% (lihat Tabel 1).

Memaksimalkan akurasi klasifikasi dapat menyebabkan overfitting dari data dan mengurangi akurasi prediksi (dicapai oleh cross-validasi). Sehingga keseimbangan antara klasifikasi dan akurasi prediksi perlu dipertahankan. Hal ini dilakukan dengan menggunakan beberapa skema pembobotan yang ditetapkan pengguna (Langkah 3, Gambar. 1) seperti yang diilustrasikan berikutnya.

A i dan B i adalah bobot dari skema engan pembobotan. Sebagai contoh, jika klasifikasi lebih penting daripada prediksi, maka skema bisa 0,7? akurasi klasifikasi 0,3? akurasi prediksi, yaitu (0,7? 71,49) (0,3? 56,09) 1/4 66,87% untuk gen USP (Tabel 2).Hasil dari masing-masing skema tertimbang adalah peringkat dalam urutan menurun dari akurasi tertimbang (Tabel 2). Untuk memilih jumlah gen untuk analisis lebih lanjut, dua kriteria yang diterapkan ambang batas pada jumlah gen yang dipilih dan ambang gabungan akurasi tertimbang. Sebagai contoh, nilai ambang batas bisa 15 gen dan 60% gabungan akurasi tertimbang. Peringkat akurasi tertimbang untuk masing-masing skema tertimbang akan menyebabkan gen berpotensi berbeda diatur (Langkah 4, Gambar. 1). Jika nilai ambang batas untuk Tabel 2 2 gen dan 60% gabungan akurasi tertimbang, maka peringkat skema tertimbang 1 (WS1) akan memilih USP dan NBC gen, sedangkan peringkat skema tertimbang 2 (WS2) akan memilih hanya gen USP.Untuk mendapatkan satu set akhir signifikan gen (Langkah 5, Gambar. 1), persimpangan semua set gen peringkat dihasilkan (Gambar. 1). Gen yang dipilih memenuhi berbagai skema tertimbang dan membentuk solusi multi-tujuan. Persimpangan WS1 dan WS2 skema tertimbang hasil pada gen USP (Tabel 2).Prosedur yang sama diulangi untuk set data plasebo. Ada dua set gen yang signifikan, masing-masing dari plasebo dan subyek obat (Langkah 6, Gambar. 1).

3.2. Genetic algorithm-based gene selection (GAGS)Mempartisi data ke dalam obat dan plasebo set memprakarsai GAGS. Algoritma genetik didasari oleh Mekanisme feature-pilihan seperti heuristik berbasis korelasi-dan pendekatan wrapper decision tree secara independen digunakan untuk mengevaluasi kualitas gen / SNP. Analisis output, yaitu, frekuensi, hasil dalam identifikasi gen yang signifikan / SNP untuk kedua obat dan plasebo set. Sebuah pengantar singkat untuk algoritma yang digunakan oleh GAGS disajikan berikutnya. GA adalah algoritma pencarian menggunakan konsep dari biologi. Sebuah GA dimulai dengan satu set solusi (diwakili oleh kromosom) yang disebut populasi. Setiap solusi dalam populasi dievaluasi dalam hal kebugaran nya. Solusi yang dipilih untuk membentuk kromosom baru (keturunan) yang dipilih sesuai dengan kebugaran mereka, yaitu, mereka yang lebih sesuai kemungkinan lebih tinggi akan berkembang biak. Ini diulang sampai kondisi berhenti (misalnya, jumlah populasi atau perbaikan solusi terbaik) terpenuhi. GA mencari solusi tanpa mengikuti kendala crisp dan berpotensi sampel seluruh wilayah solusi yang layak. Ini memberikan kesempatan mengunjungi ruang yang sebelumnya belum diselidiki dan ada kemungkinan tinggi mencapai keseluruhan yang optimal / solusi-dekat optimal, membuat GA mekanisme pencarian global.Partisi data ke dalam obat dan plasebo set bersama dengan keputusan membentuk langkah awal dari pendekatan GAGS (Langkah 1, Gambar. 2). Data obat diatur dengan fitur n (semua SNP untuk semua gen) dan pengamatan (subjek) dievaluasi menggunakan GAGS (yaitu, GA-CFS dan GA-DTW) mendekati (Langkah 2, Gambar. 2).

Untuk menghindari optima lokal, pendekatan GA-CFS (Langkah 3a, Gambar. 2) menerapkan heuristik berdasarkan korelasi-n kali (n 1/4 10-30) untuk masing-masing (obat dan plasebo) kumpulan data. Output menyediakan frekuensi, yaitu, beberapa kali fitur terpilih (Tabel 3). Sebuah nilai yang lebih tinggi dari frekuensi menunjukkan kualitas unggul dari fitur yang dipilih. Frekuensi diurutkan dalam urutan menurun untuk memudahkan identifikasi fitur kualitas. Ambang batas pada jumlah fitur yang dipilih serta frekuensi ambang dapat diatur untuk dimasukkan dalam fitur akhir (Langkah 4a, Gambar. 2). Sebagai contoh, frekuensi ambang dapat ditetapkan sebagai 1/4 80% (yaitu, 8 dari 10 kali). Fitur yang dipilih untuk batas ini adalah ABC_SNP6, CBS_SNP9, CBS_SNP1, dan PAT_SNP4 (Tabel 3).GA-DTW pendekatan (Langkah 3b, Gambar. 2) adalah komputasi secara intensif seperti membangun decision tree solusi foreach diselidiki oleh GA. Untuk mendapatkan kepercayaan fitur yang dipilih, pendekatan GA-DTW direplikasi (n kali, di mana n 1/4 10- 30). Waktu komputasi dibenarkan karena dilakukan hanya orang. Dalam ketiadaan beberapa ulangan, semua fitur yang dikeluarkan membentuk fitur akhir set (Langkah 4b, Gambar. 2). Single ini feature replikasi set masih diandalkan seperti yang diperoleh melalui pencarian GA global yang didukung oleh DTW dengan lima kali lipat lintas validasi.GA-DTW dan GA-CFS pendekatan menyediakan satu set fitur berkualitas tinggi yang berpotensi (Langkah 5, Gambar. 2). Jumlah fitur yang dipilih secara substansial berkurang dari yang dari set data asli. Prosedur yang sama diterapkan pada set data plasebo. Dengan demikian ada empat fitur set (dua set data dikalikan dengan dua pendekatan GA).

3.3. Pendekatan Feature set intersectionUntuk mengurangi jumlah fitur, dua atau lebih set fitur (diperoleh pada bagian sebelumnya) dapat dipadukan (Gbr. 3). Perpotongan yang dihasilkan menyajikan fitur penting karena mereka diseleksi oleh lebih dari satu pendekatan, sementara persatuan dapat memberikan pengetahuan yang mungkin telah terjawab oleh salah satu pendekatan. Misalnya, persimpangan GA-CFS dan WDTGS untuk set data obat telah dilakukan (lihat Tabel 4). Prosedur yang sama dilakukan untuk kumpulan data plasebo.

Pada iterasi pertama, WDTGS, GAGS, dan set fitur pendekatan Perpotongan mengurangi sejumlah fitur. Untuk mengurangi jumlah fitur, pendekatan di atas dapat kembali diterapkan (secara iterasi) untuk setiap set data yang berkurang (Gambar. 4). Proses iterasi dihentikan, jika 10 kali lipat akurasi lintas validasi memburuk atau set fitur tetap statis.

3.4. Mengevaluasi fitur set yang dipilihThe WDTGS, GAGS, dan set fitur pendekatan Perpotongan menyediakan empat set fitur, masing-masing untuk kumpulan data obat dan plasebo (yaitu, delapan set fitur di
total). Untuk mengevaluasi kualitas setiap set fitur, akurasi dasar (10-fold cross-validasi) dan spesifisitas (nilai benar-negative, yaitu, memprediksi peningkatan ketika mengingat bahwa individu telah mengalami perbaikan karena obat / pengobatan plasebo) digunakan. Akurasi dasar dan spesifisitas yang diperoleh dengan melakukan data mining pada semua fitur untuk set data obat dan plasebo. Sebuah algoritma decision tree dengan nilai-nilai default dan 10 kali lipat validasi silang dapat diterapkan. Semua set feature lainnya (yang dihasilkan dari berbagai pendekatan yang diusulkan) juga ditambang (dengan 10 kali lipat-cross-validasi) menggunakan algoritma decision tree sama dengan nilai default sama dengan baseline. Ini membentuk dasar untuk perbandingan yang adil. Ukuran kualitas berikutnya set fitur adalah sejumlah fitur dipangkas, sambil mempertahankan atau meningkatkan akurasi lintas validasi. Sebuah analisis terpisah dari obat dan plasebo data dilakukan dengan menggunakan gain informasi (IG) dan standar regresi (REG) (dengan-terbaik-pertama pencarian [33]) pendekatan yang dilaporkan dalam literatur. Ini memberikan ukuran kualitas tambahan. Bahkan, jika set fitur akurasi tidak meningkat, berhadapan dengan jumlah yang lebih kecil dari fitur yang menguntungkan. Idealnya, persentase penurunan jumlah fitur harus bermakna.Manfaat dari fitur pendekatan pilihan di atas adalah bahwa mereka mempertimbangkan training (klasifikasi) serta pengujian (prediksi) akurasi. Pendekatan GA berbasis memilih kombinasi gen / SNP, yang tidak mungkin untuk dipilih oleh pendekatan tradisional karena optima lokal. Pendekatan yang diusulkan memiliki potensi untuk mengidentifikasi kinerja terbaik set gen / SNP untuk efektivitas obat. Interaksi yang kompleks dan hubungan antara gen / SNP dapat dengan mudah dijelaskan dengan aturan keputusan dalam IF-THEN Format.

4. Aplikasi untuk satu set data genetika4.1. Data setKumpulan data yang digunakan dalam makalah ini mengemulasi kumpulan data genetik standar. Konvensi penamaan untuk gen dan SNP adalah sewenang-wenang. Gen / SNP dipilih untuk analisis didasarkan pada pengetahuan domain, sifat penyakit, struktur obat, farmakodinamik, farmakokinetik, farmakologi molekuler, dll Pre-screening gen / SNP dengan metode di atas mempersempit ruang pencarian, mengurangi usaha komputasi dan memungkinkan analisis yang ditargetkan. Kumpulan data (Tabel 5) terdiri dari fivephenotype fitur, 32 gen dengan total 172 SNP (Tabel 6 dan 7) dan jumlah mata pelajaran yang terkena penyakit adalah 1000.

Kumpulan data dibagi menjadi dua bagian yang sama dengan percobaan klinis yang sebenarnya dan satu set-mewakili subjek obat diperlakukan dan Subjek plasebo lainnya. Keputusan untuk setiap set data yang dirumuskan. Dengan demikian subjek pada set obat diberi label dengan Keputusan 1/4 D_GOOD, jika perbedaan antara nilai tes di atas 25, yang lain, Keputusan 1/4 D_BAD. Demikian pula, untuk plasebo mengatur Keputusan 1/4 P_GOOD, jika perbedaan antara nilai tes di atas 12 yang lain Keputusan 1/4 P_BAD.4.2. Weighted decision-tree-based gene selection (WDTGS)Mining dilakukan pada data untuk setiap gen (yaitu, 32 berjalan dari algoritma decision -tree) untuk subjek obat (Gbr. 1). Hasil klasifikasi dan akurasi prediksi disajikan pada Tabel 8.

Tertimbang Skema 1 didefinisikan sebagai 0,7 X akurasi klasifikasi 0,3 X akurasi prediksi. Skema tertimbang kedua adalah 0,3X akurasi klasifikasi 0,7X akurasi prediksi. Dihasilkan akurasi tertimbang gabungan untuk setiap gen, untuk setiap skema tertimbang disajikan pada Tabel 9. ambang batas untuk masuknya gen ditetapkan untuk 12 gen dengan akurasi tertimbang gabungan 1/4 55% untuk setiap skema. Untuk mendapatkan satu set gen obat signifikan akhir (Tabel 10 dan 12), sebuah persimpangan dari semua set gen peringkat dilakukan (Gbr. 1).

Prosedur yang sama dilakukan untuk set plasebo. Gen peringkat untuk kedua skema tertimbang ditunjukkan pada Tabel 11, sedangkan gen yang signifikan akhir ditunjukkan pada Tabel 12.

Pendekatan diidentifikasi 10 dan 8 gen yang signifikan untuk set obat dan plasebo data, masing-masing. Hal ini dapat diamati bahwa set karena adanya obat dan plasebo mata pelajaran memiliki gen yang sama (Tabel 12). Gen umum mungkin menunjukkan peningkatan alami dari mata pelajaran.

4.3. Genetic algorithm-based gene selection (GAGS)4.3.1. GACFS approachData obat set dengan semua fitur yang digunakan untuk menjalankan GA-CFS (Gbr. 2). 10 lipatan cross-validasi memberikan hasil yang sama dengan yang dari Tabel 3. Nilai-nilai parameter GA yang digunakan dalam pendekatan ini adalah: 100 GA berjalan, ukuran 100 populasi, nilai 0,6-Crossover, dan 0.033 tingkat mutasi. The komputasi waktu pada PC standar (Pentium 4) adalah 130 s. Frekuensi ambang 60% (yaitu, 6 dari 10 berjalan) ditetapkan untuk pemilihan SNP untuk set obat. Himpunan 63 SNP yang dipilih disediakan dalam pendekatan Tabel 13. GA-CFS untuk plasebo set menghasilkan 59 SNP.

4.3.2.Data obat set dengan semua fitur yang digunakan untuk mengeksekusi GA-DTW berdasarkan seleksi fitur (Gambar. 2). Pendekatan GA-DTW dilakukan replikasi tunggal dengan parameter GA mirip dengan pendekatan GA-CFS. Sebuah lima kali lipat cross-validasi dengan algoritma decision -tree digunakan oleh pendekatan pembungkus. Jumlah pohon keputusan dibangun dengan pendekatan ini adalah [100 (GA berjalan)? 100 (ukuran populasi)? 5 (DT lima kali lipat cross-validasi)] 50.000 pohon keputusan. Membangun 50.000 pohon keputusan adalah proses yang lambat dan membosankan membutuhkan sekitar 82 jam waktu komputasi pada PC standar (Pentium 4). Himpunan 72 SNP karena adanya set obat diberikan dalam Tabel 14. Pengolahan plasebo set dengan pendekatan yang sama menghasilkan 90 SNP.

4.4. Pendekatan Perpotongan feature-setUntuk mengurangi jumlah fitur persimpangan signifikan gen / daftar SNP diproduksi oleh WDTGS dan GA-CFS (yaitu, GA-CFS-WDTGS) dilakukan. set yang dihasilkan dari 26 SNP untuk set obat dapat dilihat pada Tabel 15. Pendekatan yang sama diterapkan pada kumpulan data plasebo menghasilkan 21 SNP signifikan.

4.5. Evaluating selected feature sets4.5.1. Acuan Dasar pengukuranData mining dari set obat dengan semua fitur yang digunakan untuk menghitung pengukuran dasar. Akurasi Baseline cross validasi dan spesifisitas untuk set obat adalah masing-masing 48,85 dan 50,76%. Berbagai algoritma seperti Support Vector Machines, algoritma clustering, neural Network, dan Regresi menghasilkan hasil yang mirip dengan pohon keputusan. Kemungkinan set data yang bising, tugas salah decision , interaksi yang kompleks dari berbagai proses fisiologis manusia, dan interaksi antara berbagai penyakit dapat menjelaskan beberapa aspek dari hasil awal yang buruk.Sebagai tujuan dari pendekatan yang diusulkan adalah untuk meningkatkan basis pengetahuan (yaitu, aturan / informasi yang mewakili sekelompok individu) atas yang sudah ada (yaitu, diperoleh dari data asli set atau ahli domain), kerendahan cross validasi dan spesifisitas hasilnya masih dapat bertindak sebagai baseline. Sehingga peningkatan relatif akurasi cross-validasi, spesifisitas, dan pengurangan fitur yang sangat penting. pendekatan IG dan REG yang dipilih untuk menentukan gen yang signifikan / SNP. Semua pendekatan yang dibahas dalam makalah ini dibandingkan dengan pendekatan IG dan REG terhadap pengukuran kualitas dibahas di atas.4.5.2. Set ObatPendekatan WDTGS meningkatkan akurasi crossvalidasi atas dasar dengan 4,69% dan mengurangi jumlah fitur dengan 60,47%. Langkah-langkah yang berkualitas untuk GA-CFS dan GA-DTW pendekatan disediakan pada Tabel 16. Pendekatan terbaik adalah pendekatan persimpangan WDTGS dan GA-CFS (yaitu, GA-CF -WDTGS fitur set). Pendekatan ini telah meningkatkan akurasi crossvalidasi lebih awal oleh 8,58% dengan penurunan 84,88% di sejumlah fitur. Spesifisitas telah meningkat 3,29% dibandingkan baseline. Dengan demikian pendekatan ini tampil lebih baik dari baseline dan juga terus meningkatkan satu sama lain (lihat Gambar. 5a dan Tabel 16).

Pendekatan IG memiliki akurasi cross validasi 50,19%, meningkat 2,74% dari baseline. Meskipun pendekatan IG menghasilkan pengurangan 63,37% dari jumlah fitur, spesifisitas menurun sebesar 2,28%. Demikian pula, pendekatan REG memiliki akurasi cross validasi 52,66% dengan penghapusan 133 fitur lebih baseline. Pendekatan GA-CFS-WDTGS dilakukan jauh lebih baik dari IG dan REG pendekatan pada semua ukuran kualitas (Tabel 16). Meskipun akurasi cross validasi REG dan GA-CFS-WDTGS pendekatan berbeda oleh kurang dari 0,5%, jumlah fitur dikurangi dengan pendekatan GA-CFS-WDTGS jauh lebih tinggi. Pendekatan GA-CFS-WDTGS diidentifikasi 3 dan 14 yang lebih baik gen / SNP dari IG dan REG, masing-masing (Tabel 17). Dengan demikian GA mampu mengidentifikasi beberapa gen unik obat / SNP yang tidak diidentifikasi oleh pendekatan tradisional.

Beberapa aturan sampel penting untuk set obat adalah sebagai berikut:

Cross-Testing dari pengetahuan yang diperoleh dari set obat dilakukan dengan menguji aturan terhadap set plasebo. Sebuah akurasi cross validasi lebih rendah (dari plasebo set lintas pengujian pada pengetahuan obat, yaitu, set aturan) mungkin menunjukkan gen yang berhubungan dengan obat yang signifikan (Gambar. 5a). Alasan untuk meningkatkan akurasi plasebo crosspengujian (Gambar. 5a) dalam analisis ini dapat dijelaskan oleh gen signifikan umum / SNP untuk kedua placebo serta subjek obat.

4.5.3. Placebo setDemikian pula, pendekatan yang terbaik untuk set plasebo adalah pendekatan persimpangan WDTGS dan GA-CFS (yaitu, GA-CFS-WDTGS fitur set). Peningkatan akurasi crossvalidasi lebih awal untuk pendekatan ini adalah 11,58% dan jumlah fitur berkurang 87,79% (Tabel 18). Spesifisitas telah meningkat 3.22% lebih baseline. Tabel 18 dan Gambar. 5b menjelaskan kualitas masing-masing pendekatan untuk set plasebo.Pendekatan IG memiliki akurasi cross validasi 53,38%, yang antara pendekatan WDTGS dan pendekatan GA-DTW. Pendekatan REG yang dilakukan terburuk dari baseline akurasi cross validasi karena penghapusan fitur berkualitas. Spesifisitas menurun sebesar 7.38% atas pengukuran dasar. Pendekatan GA-CFS-WDTGS dilakukan jauh lebih unggul dari kedua IG dan REG pendekatan dari segi semua langkah kualitas (Tabel 18). Pendekatan GA-CFS-WDTGS diidentifikasi 4 dan 8 lebih menarik gen / SNP dari IG dan REG, masing-masing (Tabel 17). Dengan demikian GA mampu mengidentifikasi beberapa gen unik plasebo / SNP. yang tidak diidentifikasi oleh pendekatan tradisional. Dua aturan sampel penting untuk set plasebo adalah sebagai berikut:

5. KesimpulanTiga pendekatan yang berbeda untuk pemilihan signifikan gen / SNP disajikan. signifikan gen yang diidentifikasi dapat menyebabkan peningkatan efektivitas obat. Untuk set data dipertimbangkan dalam makalah ini, jumlah fitur berkurang 85% dan akurasi cross validasi meningkat sebesar 10% atas pengukuran dasar. Spesifisitas meningkat sebesar 3,2%. Pendekatan yang diusulkan telah secara substansial memperkaya basis pengetahuan. Bagging meningkatkan, meta-pengambilan keputusan, dan pendekatan lain dapat digunakan untuk lebih meningkatkan akurasi cross validasi dan spesifisitas. Pendekatan GA-CFS-WDTGS yang dilakukan jauh lebih baik daripada IG dan REG pendekatan dalam hal semua langkah tiga kualitas, yaitu, akurasi cross-validasi, spesifisitas, dan jumlah gen yang signifikan / SNP. Pendekatan GA-CFS-WDTGS unik mengidentifikasi beberapa gen / SNP yang tidak dapat diidentifikasi oleh IG dan REG pendekatan.Menggabungkan pendekatan pilihan feature tradisional lebih bisa meningkatkan set fitur signifikan gen. Sebuah modifikasi dari prosedur masuknya fitur di set feature signifikan gen diperlukan, misalnya, bobot (% penurunan / peningkatan akurasi dan spesifisitas dan pengurangan jumlah fitur) dapat digunakan.Berbagai analisis obat dan penyakit terkait akan mendapat manfaat dari pendekatan yang diusulkan. hal ini pada akhirnya akan menyebabkan protokol pengobatan disesuaikan dan obat-obatan.