dm accuracy measure

15
Accuracy Measure Accuracy Measure Precision, Recall & F Precision, Recall & F - - Measure Measure Dr. Taufik Fuadi Abidin, S.Si., M.Tech Program Studi Teknik Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Bahan Kuliah Data Mining

Upload: -

Post on 03-Sep-2015

217 views

Category:

Documents


0 download

DESCRIPTION

data mining

TRANSCRIPT

  • Accuracy MeasureAccuracy MeasurePrecision, Recall & FPrecision, Recall & F--MeasureMeasure

    Dr. Taufik Fuadi Abidin, S.Si., M.Tech

    Program Studi Teknik InformatikaFMIPA Universitas Syiah Kuala

    www.informatika.unsyiah.ac.id/tfa

    Bahan Kuliah Data Mining

  • Outline Pertemuan

    Perhitungan Akurasi untuk Kasus Klasifikasi

    Confusion Matriks

    Definisi: Precision, Recall

    F-Measure

    Perhitungan Akurasi Menggunakan Perangkat Lunak Weka: Contoh Kasus Pima-Diabetes

  • Klasifikasi Perlu Training Set

    Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning)

    Untuk melakukan klasifikasi, dibutuhkan training set sebagai data pembelajaran

    Setiap sampel dari training set memiliki atribut dan klas label. Contoh klas label:

    Usulan kredit : diterima atau ditolak

    Kelulusan : pujian, sangat memuaskan, memuaskan

  • Contoh Kasus KlasifikasiSebuah perusahaan kartu kredit (credit card) menerima ribuan aplikasi baru setiap hari untuk mengajukan kartu kredit baru. Setiap aplikasi memiliki informasi tentang peserta, misalnya:

    UmurStatus perkawinanPendapatan per tahundan lain-lain

    Problem: menentukan aplikasi mana yang dapat disetujui dan aplikasi mana yang harus ditolak

  • Mengukur Hasil Klasifikasi

    Bagaimana cara mengukur sebuah metode klasifikasi (yang digunakan untuk menentukan klas label dari sampel baru) memiliki akurasi yang tinggi?

    Atau, dalam memilih metode klasifikasi terbaik, apa sebenarnya yang diukur dan dibandingkan?

    Bagaimana cara mengukur akurasi?

  • Dua Tahapan Klasifikasi

    Learning (training): Pembelajaran menggunakan data training

    Testing: Menguji metode atau model menggunakan data testing

    diuji yang testingsampel Total

    benar secara asidiklasifik yangJumlah =Akurasi

    Sumber: Bing Liu, Web Data Mining

  • Asumsi Saat Pembelajaran

    Distribusi dari training sample diasumsikan sama dengan distribusi dari testing sampel termasuk distribusi dari data baru (unclassified sample) yang ingin diduga klas labelnya

    Untuk mendapat akurasi yang baik saat mengklasifikasi testing data maka training set harus mampu merepresentasikan keadaan dari data tes

    Jika tidak, maka akurasi biasanya rendah (kurang baik)

  • Confusion Matriks

    . .FNTP

    TP r

    FPTP

    TPp

    +=

    +=

    Sumber: Bing Liu, Web Data Mining

    Precision (p) = jumlah sampel berkategori positif diklasifikasi benar dibagi dengan total sampel yang diklasifikasi sebagai sample positif

    Recall (r) = jumlah sampel diklasifikasi positif dibagi total sampel dalam testing set berkategori positif

  • ContohSumber: Bing Liu, Web Data Mining

    precision p = 100%

    recall r = 1%

    Mengapa? Karena kita hanya berhasil mengklasifikasi satu sampel positif secara benar dan semua sampel negatif benar

  • F-Measure (F1-Score)

    F-Measure (F1) adalah harmonic mean dari precision dan recall

    Range dari nilai F-Measure adalah 0 sd 1.

  • Hitung Precision, Recall dan F-Measure

    Sumber: Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques

  • Ilustrasi Perhitungan Akurasi: Menggunakan Weka

  • Data: Pima-Diabetes

  • Hasil dan Akurasi: KNN, k=3

  • Questions &

    Discussion