prediksi resiko kanker payudara menggunakan teknik klasifikasi data mining

6
Prediksi Resiko Kanker Payudara Menggunakan Teknik Klasifikasi Data Mining I. Pendahuluan Kanker payudara merupakan salah satu ancaman serius bagi nyawa manusia dan juga menempati peringkat kedua penyebab kematian pada wanita, khususnya bagi negara berkembang yang mencapai 50%, dan juga 70% bagi total keseluruhan pengidap kanker apapun (WHO 2002). Banyak sekali faktorfaktor yang menyebabkan timbulnya kanker payudara, yaitu diklasifikasikan menjadi 2 bagian, modifiable (dapat berubah) dan unmodifiable (tidak dapat berubah). Dimana faktor modifiable biasanya mencakup kebiasaan serta lingkungan. Sedangkan unmodifiable merupakan sesuatu hal yang biasanya disebut sebagai bawaan masingmasing orang, yaitu jenis kelamin, dan riwayat dari anggota keluarga lain. Faktor utama yang menyebabkan seseorang mampu mengidap kanker ialah mereka yang biasanya di usia paruh baya dengan jenis kelamin wanita. Namun ada juga beberapa potensi yang mampu meningkatkan resiko munculnya kanker payudara menurut Collaborative Group on Hormonal Factors in Breast Cancer (2002), antara lain berat badan (BMI), alcohol, paparan radiasi (termasuk pestisida pada sayuran, ataupun kandungan kimia pada makanan), tingkat hormon yang tinggi dan lainnya. Penekanan resiko pada munculnya kanker payudara dapat dilakukan dengan pemeriksaan secara dini, dimana dengan dilakukan pendeteksian ini mampu mengurangi penyebaran pertumbuhan dari sel kanker atau tumor. Pendeteksian tersebut dapat dilakukan dengan 3 metode, yaitu: Pemeriksaan klinis (dilakukan setiap tahun bagi wanita berusia diatas 40 tahun, dan dilakukan 3 tahun sekali bagi wanita dalam rentang usia 2040 tahun). Pemeriksaan payudara secara mandiri (dengan cara melakukan pemijatan pada sekitar daerah payudara dan mengetahui perubahanperubahan fisik yang terjadi dengan tahap tahap yang ada). Mamografi (menggunakan xray dengan radiasi rendah dengan tingkat keakuratan mencapai 85 % 90%, dan mampu mengurangi ancaman sel kanker yang lebih ganas sampai dengan 30 %. Klasifikasi merupakan teknik pada data mining untuk melibatkan penggunaan mesin pembelajaran yang terpandu, dengan menetapkan label atau kelas kepada objek dan grup yang berbeda. Proses ini melibatkan konstruksi model (analisa untuk pola) dan penggunaan model dimana model yang telah terkonstruksi tersebut digunakan untuk klasifikasi. Keakuratan dari metode ini biasanya diukur dari persentase jumlah uji coba dari sampel yang terklasifikasi secara benar. Metode yang akan diterapkan ini ialah Naïve Bayes, J48 Decision Tree dan software WEKA dan data yang akan digunakan ialah informasi pasien yang diambil dari LASUTH (Lagos State University Teaching Hospital).

Upload: neige-devi-samyono

Post on 08-Jul-2016

42 views

Category:

Documents


5 download

DESCRIPTION

Kanker payudara merupakan salah satu ancaman serius bagi nyawa manusia dan juga menempati peringkat kedua penyebab kematian pada wanita, khususnya bagi negara berkembang yang mencapai 50%, dan juga 70% bagi total keseluruhan pengidap kanker apapun (WHO 2002). Banyak sekali faktor-faktor yang menyebabkan timbulnya kanker payudara, yaitu diklasifikasikan menjadi 2 bagian, modifiable (dapat berubah) dan unmodifiable (tidak dapat berubah). Dimana faktor modifiable biasanya mencakup kebiasaan serta lingkungan. Sedangkan unmodifiable merupakan sesuatu hal yang biasanya disebut sebagai bawaan masing-masing orang, yaitu jenis kelamin, dan riwayat dari anggota keluarga lain.

TRANSCRIPT

Page 1: Prediksi Resiko Kanker Payudara Menggunakan Teknik Klasifikasi Data Mining

Prediksi  Resiko  Kanker  Payudara  Menggunakan  Teknik  Klasifikasi  Data  Mining  

 I. Pendahuluan    

 Kanker   payudara   merupakan   salah   satu   ancaman   serius   bagi   nyawa   manusia   dan   juga  menempati   peringkat   kedua   penyebab   kematian   pada   wanita,   khususnya   bagi   negara  berkembang   yang   mencapai   50%,   dan   juga   70%   bagi   total   keseluruhan   pengidap   kanker  apapun  (WHO  2002).    Banyak   sekali   faktor-­‐faktor   yang   menyebabkan   timbulnya   kanker   payudara,   yaitu  diklasifikasikan  menjadi  2  bagian,  modifiable  (dapat  berubah)  dan  unmodifiable  (tidak  dapat  berubah).   Dimana   faktor   modifiable   biasanya   mencakup   kebiasaan   serta   lingkungan.  Sedangkan   unmodifiable   merupakan   sesuatu   hal   yang   biasanya   disebut   sebagai   bawaan  masing-­‐masing  orang,  yaitu  jenis  kelamin,  dan  riwayat  dari  anggota  keluarga  lain.      Faktor   utama   yang  menyebabkan   seseorang  mampu  mengidap   kanker   ialah  mereka   yang  biasanya  di  usia  paruh  baya  dengan  jenis  kelamin  wanita.  Namun  ada  juga  beberapa  potensi  yang  mampu  meningkatkan  resiko  munculnya  kanker  payudara  menurut  Collaborative  Group  on  Hormonal  Factors  in  Breast  Cancer  (2002),  antara  lain  berat  badan  (BMI),  alcohol,  paparan  radiasi  (termasuk  pestisida  pada  sayuran,  ataupun  kandungan  kimia  pada  makanan),  tingkat  hormon  yang  tinggi  dan  lainnya.    Penekanan   resiko  pada  munculnya  kanker  payudara  dapat  dilakukan  dengan  pemeriksaan  secara   dini,   dimana   dengan   dilakukan   pendeteksian   ini   mampu   mengurangi   penyebaran  pertumbuhan  dari  sel  kanker  atau  tumor.  Pendeteksian  tersebut  dapat  dilakukan  dengan  3  metode,  yaitu:  • Pemeriksaan   klinis   (dilakukan   setiap   tahun   bagi   wanita   berusia   diatas   40   tahun,   dan  

dilakukan  3  tahun  sekali  bagi  wanita  dalam  rentang  usia  20-­‐40  tahun).  • Pemeriksaan  payudara  secara  mandiri  (dengan  cara  melakukan  pemijatan  pada  sekitar  

daerah  payudara  dan  mengetahui  perubahan-­‐perubahan  fisik  yang  terjadi  dengan  tahap-­‐tahap  yang  ada).  

• Mamografi   (menggunakan   x-­‐ray   dengan   radiasi   rendah   dengan   tingkat   keakuratan  mencapai   85  %   -­‐   90%,   dan  mampu  mengurangi   ancaman   sel   kanker   yang   lebih   ganas  sampai  dengan  30  %.  

 Klasifikasi   merupakan   teknik   pada   data   mining   untuk   melibatkan   penggunaan   mesin  pembelajaran  yang  terpandu,  dengan  menetapkan  label  atau  kelas  kepada  objek  dan  grup  yang  berbeda.  Proses  ini  melibatkan  konstruksi  model  (analisa  untuk  pola)  dan  penggunaan  model   dimana   model   yang   telah   terkonstruksi   tersebut   digunakan   untuk   klasifikasi.  Keakuratan  dari  metode  ini  biasanya  diukur  dari  persentase  jumlah  uji  coba  dari  sampel  yang  terklasifikasi  secara  benar.  Metode  yang  akan  diterapkan  ini  ialah  Naïve  Bayes,  J48  Decision  Tree  dan  software  WEKA  dan  data  yang  akan  digunakan  ialah  informasi  pasien  yang  diambil  dari  LASUTH  (Lagos  State  University  Teaching  Hospital).      

Page 2: Prediksi Resiko Kanker Payudara Menggunakan Teknik Klasifikasi Data Mining

II. Proses  Data  Mining    

Penerapan  data  mining  dapat  menggunakan  berbagai  parameter  berbeda  untuk  mengecek  data  yang  mengandung;    

• asosiasi  (pola  yang  menjelaskan  keterkaitan  antar  data)  • sekuensial/analisa  pola  (dimana  1  pola  yang  ada  merujuk  ke  informasi  lain)  • klasifikasi  (identifikasi  dari  pola  yang  baru  dengan  sasaran  yang  telah  ditentukan)  • klustering  (pengelompokkan  objek-­‐objek  serupa  yang  berukuran  lebih  kecil)  

 Tahap-­‐tahap  yang  mampu  dilakukan:    

• Definisi  permasalahan  Pendefinisian   hasil   akhir,   obyektifitas   dan   pengidentifikasian   dari   sarana   yang  digunakan  untuk  membangun  model  yang  telah  ditentukan.  

• Eksplorasi  data  Merupakan   rekomendasi   untuk   sekumpulan   dataset   yang   berguna   apabila  keberadaan  dataset  tersebut  tidak  memenuhi  kebutuhan  untuk  analisis.  

• Persiapan  data  Merupakan   proses   dari   pembersihan   dan   transformasi   data   untuk   menghilangkan  data  yang  hilang  dan  invalid  untuk  analisis  yang  lebih  kuat.  

• Permodelan  Didasari  oleh  data  dan  hasil  (keluaran)  yang  diinginkan.  Dimana  melibatkan  algoritma  data  mining   (untuk  kasus   ini  digunakan;  naïve  bayes,  decision  tree,  dan  multi   layer  perceptron)   untuk   menemui   obyektifitas   yang   diperlukan,   dimana   tujuan   dari  pembelajaran  ini  ialah  klasifikasi.  

• Evaluasi  dan  penyebaran  Merupakan  analisis  dan  interpretasi  dari  hasil  analisis  untuk  membuat  rekomendasi  untuk  pertimbangan.  

 

             

Page 3: Prediksi Resiko Kanker Payudara Menggunakan Teknik Klasifikasi Data Mining

III. Bahan  dan  Metode    Pada   tahap   ini   telah   dilakukan   data   preprocessing   untuk   menghilangkan   data   yang   tidak  konsisten   dan   data   dikonversikan   ke   dalam   format   yang   lebih   bermanfaat   untuk   simulasi  lingkungan   (environment).   Software  WEKA  merupakan  environment   yang  digunakan  untuk  simulasi   prediksi   model   untuk   kanker   payudara;   dimana   software   ini   open-­‐source   untuk  tujuan  akademis.    Data  yang  dikumpulkan  dibawah  ini  diambil  dari  LASUTH,  dimana  terdapat:  

• 69  instances  dan  17  attributes  • Pendistribusian  kelas  disini  dibagi  menjadi  3,  yaitu    

-­‐ tidak  mungkin,    -­‐ mungkin  dan    -­‐ jinak.    

• 16  variabel  yang  tidak  saling  ketergantungan,  dan  1  variabel  yang  ketergantungan  (11  modifiable,  5  unmodifiable)  

    Faktor  Resiko   Nilai  1   Sejarah  keluarga  tentang  kanker  payudara   Iya,  Tidak  2   Keberadaan  penyakit  payudara  bersifat  jinak   Tidak  Pernah,  Pernah  3   Payudara  padat  teruji  di  mamografi   Tidak  Pernah,  Pernah  4   Usia  dari  awal  kelahiran   Tidak,  ≤30  tahun,  >30  tahun  5   Usia  menopause   Tidak,  ≤50  tahun,  >50  tahun  6   Massa  tubuh  (BMI)   <25,  ≥25  tahun  7   Usia  awal  menstruasi  (menarche)   Tidak,  ≤12  tahun,  >12  tahun  8   Level  estrogen  endogen   Rendah,  Tinggi  9   Rasio  lingkar  pinggang   <  0.81,  ≥  0.81  10   Usia   ≤50  tahun,  >50  tahun  11   Jenis  Kelamin   Laki-­‐laki,  Perempuan  12   Frekuensi  merokok   Tidak  Pernah,  Dulu,  Masih  13   Penggunaan  alcohol   Tidak  Pernah,  Dulu,  Masih  14   Pekerjaan  yang  berbahaya   Tidak,  Iya  15   Kontrasepsi   Tidak  Pernah,  Pernah,  Masih  16   Menyusui   Tidak  Pernah,  Pernah  17   Resiko  kanker  payudara   Tidak  Mungkin,  Mungkin,  Jinak    IV. Naïve  Bayes  Classifier  

 Jenis-­‐jenis  variable  yang  ada  dan  keterangannya:    X   =  data  sampel  yang  memiliki  kejadian  Xi   =  dimana  setiap  kejadian  adalah  faktor  risiko  kanker  payudara  (modifiable  &  non  modifiable)  H     =  hipotesa  dimana  X   termasuk  ke  dalam  kelas  C  yang  memiliki  3  nilai;   tidak  mungkin,  mungkin  dan  jinak    

Page 4: Prediksi Resiko Kanker Payudara Menggunakan Teknik Klasifikasi Data Mining

Klasifikasi  digunakan  untuk  menentukan    P   (Hj   |   X)   (contohnya:   probabilitas   posteriori   (bersangkutan   dengan   alasan   yang  didapat  dari   fakta  yang   telah  diobservasi):  dimana  probabilitas  dari   suatu  hipotesis  dengan  Hj  (tidak  mungkin,  mungkin  dan  jinak)  mengamati  data  yang  diobservasi  dari  sampel  X.    P(Hj)  (prior  probability):  probabilitas  awal  dari  suatu  hipotesis  di  suatu  kelas  P(Xi):  probabilitas  yang  sampel  datanya  di  observasi  untuk  setiap  atribut,  i:  P(Xi  |  H):  kemungkinan  mengobservasi  atribut  sampel  Probabilitas  posteriori  dari  hipotesis  Hj  c  P(Hj  |  Xi)  mengikuti  teori  Bayes,    Dengan  contoh:    X  =  {  X1,  X2,  X3,  X4,  …..X1}  dan    Hj  =  {tidak  mungkin,  mungkin  dan  jinak};  j=3  Output  resiko  kanker  payudara  =  maksimum  [P  (Hj  |  X)]  for  j=1,2,3  

 V. Decision  Tree  

 J48  merupakan  algoritma  untuk  pohon  keputusan  yang  sederhana,  dimana  hanya  menerima  data  yang  termasuk  ke  dalam  kategori.  Ide  dasar  dari  ID3  adalah  dengan  mengadopsi  metode  top  down  greedy,  yaitu  mencari  setiap  data  pada  setiap  atribut  untuk  menguji  setiap  node  di  pohon.  Metode  ini  baik  digunakan  untuk  data  yang  memiliki  kategori  atau  terus  menerus.      Nilai  S  untuk  setiap  kasus  kanker  payudara,  J48  muncul  pertama  kali  dengan  menggunakan  algoritma  divide  and  conquer.      

• Apabila  setiap  kejadian  di  S  masuk  ke  dalam  kelas  yang  sama,  maka  pohon  tersebut  ditandai  dengan,    

• Atau,  memilih  pengujian  yang  berdasarkan  dari  atribut  tunggal  dengan  2  atau  lebih  keluaran.  Buatlah  pengujian  ini  sebagai  akar  dari  pohon,  dengan  satu  cabang  keluaran  untuk   pengujian,   lalu   bagilah   S   menjadi   subset   S1,   S2,   …,   Sn,   untuk   set   data   yang  memiliki  kejadian  ke-­‐n,  menurut  hasil  dari  setiap  kejadian,  dan  lakukan  prosedur  yang  sama  secara  rekursif  ke  setiap  subset.    

 VI. Evaluasi  Performa    Merupakan  pengukuran  keakuratan  dari  model   yang  dikembangkan  dengan  data   set  yang  terpandu.  Hasil  dari  klasifikasi  tersimpan  di  confusion  matrix,  dimana  matriks  ini  menunjukan  klasifikasi  aktual  secara  vertikal,  dan  prediksi-­‐prediksi  secara  vertikal.    

ü Klasifikasi  yang  benar  melintang  dari  barat  laut  (pojok  kiri  atas)  sampai  ke  tenggara  (pojok  kanan  bawah),  yang  disebut  dengan  True  Positive  (TP)  dan  True  Negative  (TN)  

ü Dimana  bagian  lain  disebut  dengan  False  Positive  (FP)  dan  False  Negative  (FN).    Lalu  apabila  kejadian  yang  tidak  mungkin  dianggap  positif   (+),  maka  kejadian  mungkin  dan  jinak   dianggap   negatif   (-­‐),   dan   begitu   juga   dengan   nilai   lainnya   apabila   dibalik   (diubah)  keadaannya.  

Page 5: Prediksi Resiko Kanker Payudara Menggunakan Teknik Klasifikasi Data Mining

 VII. Hasil  eksperimen  dan  diskusi    

 a        b                  c  

17   1   0  6   22   5  0   0   18    **decision  tree  

              a        b                  c  

17   1   0  2   31   0  0   1   17    **naïve  bayes  

 Ket:  a:  jinak;  b:  mungkin;  c:  tidak  mungkin      Keakuratan:       Naïve  Bayes   J48  

Page 6: Prediksi Resiko Kanker Payudara Menggunakan Teknik Klasifikasi Data Mining

Klasifikasi  yang  benar   57   65  Klasifikasi  yang  salah   12   4  Keakuratan  (%)   82.6   94.2    TP  (True  Positive)   =  87%    

*(diambil  dari  nilai  positif  yang  aktual)    Naïve  Bayes  &  J48   =  94%    FP  (False  Positive)   =  8.1%    

*(kejadian  positif  namun  terjadi  kesalahan  dalam  pengklasifikasian)  Naïve  Bayes  &  J48   =  3.1%    Evaluasi  performa  dari  kedua  model:    

   VIII. Kesimpulan    Pada   studi   kasus   ini   dilakukan  dua  metode  data  mining   yang  berbeda  untuk  menentukan  teknik  mana  yang  lebih  baik  untuk  memprediksi  dari  resiko  kanker  payudara  dan  performanya  dibandingkan  dengan  tujuan  untuk  mengevaluasi  metode  mana  yang  lebih  baik.  Percobaan  ini  menunjukkan  bahwa  J48  memiliki  hasil  yang  lebih  baik  dari  segi  keakuratan,  presisi  serta  tingkat  kesalahan  yang  mungkin.