denetimsiz anomali belirleme yöntemleri ve...

1
İlkay BİSREN - Sibel ALKAN DANIŞMAN: Dr. Engin YILDIZTEPE YÖNTEM Anomali, bir verinin beklenen davranışına uymayan durumları veya desenleri olarak tanımlanabilir (Chandola, 2009). Nadir meydana gelen ve diğer gözlemlerden önemli ölçüde farklılık gösteren gözlemlerdir. Anomaliler ayrıca konumlarına göre yerel ve küresel anomaliler olmak üzere iki sınıfa ayrılır. Küresel anomaliler, yoğun alanlardan belirgin şekilde uzakta olan kolayca tespit edilebilen gözlemlerdir. Yerel anomaliler , ilk bakışta normal bir örnek gibi gözükebilecek ancak yakınındaki en yoğun kümeye odaklanıldığında anomali olduğu anlaşılabilecek gözlemlerdir. Denetimsiz Anomali Belirleme yaklaşımında eğitim kümesine ihtiyaç duyulmaz, gözlemler önceden normal-anomali olarak etiketlenmez. K - En Yakın Komşu Tabanlı Yöntemler (k - NN ): k-NN tabanlı yöntemler, verilerin anomali puanını komşuluklarına göre hesaplar. Anomalilerin en yakın k tane komşularından uzakta oldukları veya k komşuluğundaki gözlem yoğunluğunun seyrek olduğu varsayılır. Local Outlier Factor (LOF) : Her bir gözlemin kendi yerel yoğunluğuna ve k-en yakın komşularının ortalama yerel yoğunluğuna dayalı olarak anomali puanı hesaplanır. Connectivity Outlier Factor (COF): LOF algoritmasının farklı bir çeşididir. Temel farkı, bir veri noktasının komşuları ile arasındaki uzaklığın hesaplanmasında kullanılacak olan mesafe ölçüsünün LOF’tan farklı seçilmesidir. Kümeleme Tabanlı Yöntemler: Kümeleme tabanlı algoritmalar, normal verilerin kendi aralarında kümeler oluşturduğunu ve anomalilerin bu kümelerin dışında kaldığını varsayar. Cluster Based Local Outlier Factor (CBLOF) : CBLOF, verilerdeki yoğun alanları belirlemek için kümelemeyi kullanır. İlk olarak k-ortalama ile veriler kümelere ayrılır, daha sonra her küme için bir yoğunluk tahmini gerçekleştirilir. Local Density Cluster Based Outlier Factor (LDCOF) : LDCOF, küme üyelerinin küresel dağıldığını varsayarak kümelerin yoğunluklarını tahmin eder. İlk olarak k-ortalama ile verileri kümelere ayırır. LDCOF puanı, bir verinin küme merkezine olan uzaklığının tüm küme üyelerinin merkeze olan ortalama uzaklığına bölünmesiyle hesaplanır. İ statistik Tabanlı Yöntemler : İstatistiksel anomali tespit yöntemleri parametrik ve parametrik olmayan yöntemler olarak iki grupta incelenebilir. Parametrik yöntemler, örneklemin çekildiği kitleye ait varsayımların sağlanmasını gerektirir. Bu nedenle uygulamada parametrik olmayan anomali belirleme yöntemleri daha fazla tercih edilir. Bu çalışmada, parametrik olmayan yöntemlerden histogram tabanlı aykırı değer puanı algoritması incelenmiştir. Histogram Based Outlier Score (HBOS ) : Her bir değişken için yoğunluk histogramı oluşturulur. Her bir kutunun yüksekliği yoğunluk tahminini temsil eder. Yoğunluk tahmini değerleri min-max yöntemi kullanılarak normalleştirilir. Her bir değişken için normalleştirilmiş değerler kullanılarak anomali puanı hesaplanır. Sonrasında değişkenler için hesaplanan puanlar toplanarak gözlemlerin anomali puanı belirlenir (Goldstein ve Dengel, 2012; Goldstein ve Uchida, 2016) PROJENİN AMACI Denetimsiz anomali belirleme yöntemlerinin incelenmesi. Farklı alanlardan, çok boyutlu veriler için seçilen anomali belirleme yöntemlerinin performanslarının araştırılması. Proje rapor ve sunumunun Rmarkdown kullanılarak hazırlanması. Uygulamada, LOF, COF, CBLOF, LDCOF ve HBOS algoritmalarının performansları farklı özelliklerde çok değişkenli veriler kullanılarak karşılaştırılmıştır. Çalışmada kullanılan veri kümeleri denetimsiz anomali belirleme algoritmalarını karşılaştırmak için önerilen verilerdir (Goldstein, 2015). Veri kümeleri ve özellikleri Tablo 1’de verilmiştir. Karşılaştırma kriterleri, doğruluk oranı (accuracy rate), gerçek pozitif (TPR), yanlış pozitif (FPR) oranları ve ROC eğrisi altında kalan alan (AUC) olarak belirlenmiştir (Tablo 2). Anomali puanları için kritik değer seçimi, ROC eğrisi kullanılarak belirlenmiştir (Şekil 3). Uygulamada R ve RapidMiner programları kullanılmıştır (R Core Team, 2018; RapidMiner Studio 9.2, 2019) SONUÇ Çalışmamızda kümeleme tabanlı yöntemler en yakın komşu tabanlı ve istatistiksel tabanlı yöntemlere göre daha başarılı bulunmuştur. Elde edilen sonuçlara göre en başarılı algoritma CBLOF algoritmasıdır. Anomali konumuna göre (küresel – yerel) algoritmaların performansları değişmektedir. Önceden anomali konumunun bilinmediği verilerde farklı türdeki anomalileri bulmakta başarılı algoritmalar denenmelidir. Algoritmalar için seçilen parametre değerleri ve anomali puanları için belirlenen kritik değerler algoritmaların performansını etkileyen en önemli faktörlerdir. Sonraki çalışmalarda, belirli bir anomali belirleme algoritması için kritik değerin ve parametrelerinin belirlenmesi konuları incelenebilir. Bir gözlem, verinin geri kalanına göre önemli ölçüde farklılık gösteriyor ise nokta anomali olarak adlandırılır. Tek başına bakıldığında anomali olarak değerlendirilmeyen fakat özel bir bağlamda değerlendirildiğinde anomali olarak nitelendirilebilen gözlemler bağlamsal anomali olarak adlandırılır. Bireysel olarak anomali olarak değerlendirilmeyen ancak bir araya gelerek oluşturdukları desen ile farklılık gösteren gözlemler ise, kolektif anomali olarak adlandırılır. UYGULAMA DOKUZ EYLÜL ÜNİVERSİTESİ FEN FAKÜLTESİ İSTATİSTİK BÖLÜMÜ 2018-2019 BİTİRME PROJESİ, MAYIS 2019 HBOS algoritması hariç diğer dört algoritma için anomali puanları RapidMiner kullanılarak elde edilmiştir. Daha sonra R istatistiksel programlama dili ile, karmaşıklık matrisi oluşturulmuş ve ROC eğrisi çizdirilmiştir. Her bir veri kümesi için beş algoritma denenmiş ve belirlenen performans kriterlerinin sonuçları kaydedilmiştir. Şekil 4 ve Şekil 5’te RapidMiner programında yapılan uygulamalardan örnekler verilmiştir. Her bir veri kümesi için ROC eğrisi yardımıyla en uygun kritik değer belirlenmiştir. Kritik değer seçiminin anomali belirleme performansını etkilediği görülmüştür. Kdd99 veri kümesi için en iyi anomali belirleme performansını HBOS ve CBLOF algoritmaları vermiştir (Tablo 6). Tablo 3 – 6’da Kdd99 veri kümesi için gösterilen aşamalar tüm veri kümeleri için uygulanmış ve sonuçlar kaydedilmiştir. Veri Kümesi n Boyut #Anomali %Anomali Breast-Cancer 367 30 10 2,72 Pen Global 809 16 90 11,1 Letter 1600 32 100 6,25 Speech 3686 400 61 1,65 Satellite 5100 36 75 1,49 Pen Local 6724 16 10 0,15 Annthyroid 6916 21 250 3,61 Shuttle 46464 9 878 1,89 Aloi 50000 27 1508 3,02 Kdd99 620098 30 1052 0,17 Denetimsiz Anomali Belirleme Yöntemleri ve Uygulamaları Şekil 1: Anomali Çeşitleri Şekil 2: Denetimsiz Anomali Belirleme Algoritmaları Tablo 1: Veri Kümeleri ve Özellikleri Yanlış Pozitif Gerçek Pozitif Şekil 3 : ROC Eğrisi Tablo 2 : Karmaşıklık Matrisi Şekil 4: K-nn Tabanlı Yöntemler için Örnek Tasarım Şekil 5 : Kümeleme Tabanlı Yöntemler için Örnek Tasarım AUC Accuracy TPR FPR Kdd99 LOF 0,562 0,750 0,348 0,250 COF 0,515 0,747 0,245 0,252 HBOS 0,991 0,932 0,971 0,068 CBLOF 0,899 0,900 0,688 0,100 LDCOF 0,926 0,775 0,915 0,225 Veri Kümesi K.D K AUC Accuracy TPR FPR K AUC Accuracy TPR FPR 1;1 0,562 0,092 0,909 0,910 0,515 0,414 0,594 0,586 1,2;1,2 0,562 0,750 0,348 0,250 0,515 0,747 0,245 0,252 1,5;1,5 0,562 0,887 0,185 0,111 0,515 0,905 0,132 0,093 kdd99 [10,20] 10 LOF COF Tablo 3 :Kdd99 Veri Kümesi için Kümeleme Algoritmalarının Sonuçları (K.D= Kritik Değer) Tablo 4 :Kdd99 Veri Kümesi için En Yakın Komşu Tabanlı Algoritmalarının Sonuçları Tablo 5 :Kdd99 Veri Kümesi için HBOS Algoritmasının Sonuçları Tablo 6 : Kdd99 Veri Kümesi için Algoritma Sonuçları Tablo 7 : Tüm Veri Kümeleri İçin En iyi Algoritmalar KAYNAKLAR Chandola, V., Banerjee, A., & Kumar, V. (2009). Anomaly detection: A survey. ACM computing surveys (CSUR), 41(3),15. Goldstein, M., 2015, Unsupervised Anomaly Detection Benchmark, https://doi.org/10.7910/DVN/OPQMVF, Harvard Dataverse. Goldstein, M., & Dengel, A. (2012). Histogram-based outlier score (hbos): A fast unsupervised anomaly detection algorithm. KI- 2012: Poster and Demo Track, 59-63. Goldstein, M., & Uchida, S. (2016). A comparative evaluation of unsupervised anomaly detection algorithms for multivariate data. PloS one, 11(4), e0152173. RapidMiner Studio 9.2 (2019). Data science, machine learning, predictive analytics. https://rapidminer.com/ R Core Team (2018). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna. Uygulama sonucunda her bir veri kümesi için en başarılı algoritmalar belirlenmiştir. Uygulamada elde edilen sonuçların özeti Tablo 7 ‘de verilmiştir. Bazı veri kümelerinde birden fazla algoritma başarılı olurken, Speech veri kümesinde bu çalışmada incelenen hiçbir algoritma anomali belirlemede başarılı sonuç vermemiştir. İstatistiksel Tabanlı DENETİMSİZ ANOMALİ BELİRLEME ALGORİTMALARI En Yakın Komşu Tabanlı Kümeleme Tabanlı Küresel Yerel Yerel HBOS K - nn LOF COF CBLOF LDCOF Küresel Veri Kümesi Algoritma Boyut AUC Accuracy TPR FPR Aloi CBLOF 27 0,733 0,800 0,434 0,189 Annthyroid LOF 21 0,631 0,859 0,376 0,123 LDCOF 30 0,997 0,981 1,000 0,020 HBOS 30 0,986 0,962 1,000 0,039 HBOS 30 0,991 0,932 0,971 0,068 CBLOF 30 0,899 0,900 0,688 0,100 LOF 32 0,913 0,924 0,590 0,053 COF 32 0,874 0,925 0,550 0,050 Pen Global CBLOF 16 0,947 0,824 0,922 0,188 Pen Local LOF 16 0,999 0,977 1,000 0,023 HBOS 36 0,923 0,951 0,760 0,047 CBLOF 36 0,963 0,883 0,907 0,118 LDCOF 9 0,987 0,888 0,982 0,113 CBLOF 9 0,995 0,868 0,999 0,134 HBOS 9 0,923 0,951 0,760 0,047 LDCOF 9 0,987 0,888 0,982 0,113 Breast-Cancer Kdd99 Letter Satellite Shuttle Veri Kümesi K.D k Alfa Beta AUC Accuracy TPR FPR k Alfa AUC Accuracy TPR FPR 1;1 0,899 0,002 0,980 1,000 0,926 0,775 0,915 0,225 1,2 ;1,2 0,899 0,900 0,688 0,100 0,926 0,938 0,647 0,062 1,5;1,5 0,899 0,988 0,553 0,012 0,926 0,996 0,540 0,003 CBLOF LDCOF kdd99 10 5 95 10 0,3 Veri Kümesi K.D AUC Accuracy TPR FPR 16,5 0,991 0,932 0,971 0,068 8 0,991 0,756 1,000 0,245 kdd99 HBOS

Upload: others

Post on 11-Jan-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Denetimsiz Anomali Belirleme Yöntemleri ve Uygulamalarıistatistik.deu.edu.tr/wp-content/uploads/2019/05/sibel-alkan.pdf · İstatistik Tabanlı Yöntemler : İstatistiksel anomali

İ lkay BİSREN - Sibel ALKAN

DANIŞMAN : Dr. Engin YILDIZTEPE

YÖNTEMAnomali, bir verinin beklenen davranışına uymayan durumları veya desenleri olarak tanımlanabilir (Chandola, 2009). Nadir meydana gelen ve diğer gözlemlerden önemli ölçüde farklılık gösteren gözlemlerdir.

Anomaliler ayrıca konumlarına göre yerel ve küresel anomaliler olmak üzere iki sınıfa ayrılır. Küresel anomaliler, yoğun alanlardan belirgin şekilde uzakta olan kolayca tespit edilebilen gözlemlerdir. Yerel anomaliler, ilk bakışta normal bir örnek gibi gözükebilecek ancak yakınındaki en yoğun kümeye odaklanıldığında anomali olduğu anlaşılabilecek gözlemlerdir.

Denetimsiz Anomali Belirleme yaklaşımında eğitim kümesine ihtiyaç duyulmaz, gözlemler önceden normal-anomali olarak etiketlenmez.

K - En Yakın Komşu Tabanlı Yöntemler (k-NN): k-NN tabanlı yöntemler, verilerin anomali puanını komşuluklarına göre hesaplar. Anomalilerin en yakın k tane komşularından uzakta oldukları veya k komşuluğundaki gözlem yoğunluğunun seyrek olduğu varsayılır.

Local Outlier Factor (LOF) : Her bir gözlemin kendi yerel yoğunluğuna ve k-en yakın komşularının ortalama yerel yoğunluğuna dayalı olarak anomali puanı hesaplanır.

Connectivity Outlier Factor (COF): LOF algoritmasının farklı bir çeşididir. Temel farkı, bir veri noktasının komşuları ile arasındaki uzaklığın hesaplanmasında kullanılacak olan mesafe ölçüsünün LOF’tan farklı seçilmesidir.

Kümeleme Tabanlı Yöntemler: Kümeleme tabanlı algoritmalar, normal verilerin kendi aralarında kümeler oluşturduğunu ve anomalilerin bu kümelerin dışında kaldığını varsayar.

Cluster Based Local Outlier Factor (CBLOF) : CBLOF, verilerdeki yoğun alanları belirlemek için kümelemeyi kullanır. İlk olarak k-ortalama ile veriler kümelere ayrılır, daha sonra her küme için bir yoğunluk tahmini gerçekleştirilir.

Local Density Cluster Based Outlier Factor (LDCOF) : LDCOF, küme üyelerinin küresel dağıldığını varsayarak kümelerin yoğunluklarını tahmin eder. İlk olarak k-ortalama ile verileri kümelere ayırır. LDCOF puanı, bir verinin küme merkezine olan uzaklığının tüm küme üyelerinin merkeze olan ortalama uzaklığına bölünmesiyle hesaplanır.

İstatistik Tabanlı Yöntemler : İstatistiksel anomali tespit yöntemleri parametrik ve parametrik olmayan yöntemler olarak iki grupta incelenebilir. Parametrik yöntemler, örneklemin çekildiği kitleye ait varsayımların sağlanmasını gerektirir. Bu nedenle uygulamada parametrik olmayan anomali belirleme yöntemleri daha fazla tercih edilir. Bu çalışmada, parametrik olmayan yöntemlerden histogram tabanlı aykırı değer puanı algoritması incelenmiştir.

Histogram Based Outlier Score (HBOS) : Her bir değişken için yoğunluk histogramı oluşturulur. Her bir kutunun yüksekliği yoğunluk tahminini temsil eder. Yoğunluk tahmini değerleri min-max yöntemi kullanılarak normalleştirilir. Her bir değişken için normalleştirilmiş değerler kullanılarak anomali puanı hesaplanır. Sonrasında değişkenler için hesaplanan puanlar toplanarak gözlemlerin anomali puanı belirlenir (Goldstein ve Dengel, 2012; Goldstein ve Uchida, 2016)

PROJENİN AMACI

Denetimsiz anomali belirleme yöntemlerinin incelenmesi.

Farklı alanlardan, çok boyutlu veriler için seçilen anomali belirleme yöntemlerinin performanslarının araştırılması.

Proje rapor ve sunumunun Rmarkdown kullanılarak hazırlanması.

Uygulamada, LOF, COF, CBLOF, LDCOF ve HBOS algoritmalarının performansları farklı özelliklerde çok değişkenli veriler kullanılarak karşılaştırılmıştır. Çalışmada kullanılan veri kümeleridenetimsiz anomali belirleme algoritmalarını karşılaştırmak için önerilen verilerdir (Goldstein, 2015). Veri kümeleri ve özellikleri Tablo 1’de verilmiştir.

Karşılaştırma kriterleri, doğruluk oranı (accuracy rate), gerçek pozitif (TPR), yanlış pozitif (FPR) oranları ve ROC eğrisi altında kalan alan (AUC) olarak belirlenmiştir (Tablo 2). Anomalipuanları için kritik değer seçimi, ROC eğrisi kullanılarak belirlenmiştir (Şekil 3).

Uygulamada R ve RapidMiner programları kullanılmıştır (R Core Team, 2018; RapidMiner Studio 9.2, 2019)

SONUÇ Çalışmamızda kümeleme tabanlı yöntemler en yakın komşu tabanlı ve istatistiksel tabanlı yöntemlere göre

daha başarılı bulunmuştur. Elde edilen sonuçlara göre en başarılı algoritma CBLOF algoritmasıdır. Anomali konumuna göre (küresel – yerel) algoritmaların performansları değişmektedir. Önceden anomali

konumunun bilinmediği verilerde farklı türdeki anomalileri bulmakta başarılı algoritmalar denenmelidir. Algoritmalar için seçilen parametre değerleri ve anomali puanları için belirlenen kritik değerler algoritmaların

performansını etkileyen en önemli faktörlerdir. Sonraki çalışmalarda, belirli bir anomali belirleme algoritmasıiçin kritik değerin ve parametrelerinin belirlenmesi konuları incelenebilir.

Bir gözlem, verinin geri kalanına göre önemli ölçüde farklılıkgösteriyor ise nokta anomali olarak adlandırılır.

Tek başına bakıldığında anomali olarak değerlendirilmeyenfakat özel bir bağlamda değerlendirildiğinde anomali olaraknitelendirilebilen gözlemler bağlamsal anomali olarak adlandırılır.

Bireysel olarak anomali olarak değerlendirilmeyen ancak biraraya gelerek oluşturdukları desen ile farklılık gösteren gözlemlerise, kolektif anomali olarak adlandırılır.

UYGULAMA

DOKUZ EYLÜL ÜNİVERSİTESİ FEN FAKÜLTESİ İSTATİSTİK BÖLÜMÜ 2018-2019 BİTİRME PROJESİ, MAYIS 2019

HBOS algoritması hariç diğer dört algoritma için anomali puanları RapidMiner kullanılarak elde edilmiştir. Daha sonra Ristatistiksel programlama dili ile, karmaşıklık matrisi oluşturulmuş ve ROC eğrisi çizdirilmiştir. Her bir veri kümesi için beşalgoritma denenmiş ve belirlenen performans kriterlerinin sonuçları kaydedilmiştir. Şekil 4 ve Şekil 5’te RapidMinerprogramında yapılan uygulamalardan örnekler verilmiştir.

Her bir veri kümesi için ROC eğrisi yardımıyla en uygun kritikdeğer belirlenmiştir. Kritik değer seçiminin anomali belirlemeperformansını etkilediği görülmüştür.

Kdd99 veri kümesi için en iyi anomali belirleme performansınıHBOS ve CBLOF algoritmaları vermiştir (Tablo 6).

Tablo 3 – 6’da Kdd99 veri kümesi için gösterilen aşamalar tümveri kümeleri için uygulanmış ve sonuçlar kaydedilmiştir.

Veri Kümesi n Boyut #Anomali %Anomali

Breast-Cancer 367 30 10 2,72

Pen Global 809 16 90 11,1

Letter 1600 32 100 6,25

Speech 3686 400 61 1,65

Satellite 5100 36 75 1,49

Pen Local 6724 16 10 0,15

Annthyroid 6916 21 250 3,61

Shuttle 46464 9 878 1,89

Aloi 50000 27 1508 3,02

Kdd99 620098 30 1052 0,17

Denetimsiz Anomali Belirleme Yöntemleri ve Uygulamaları

Şekil 1: Anomali Çeşitleri

Şekil 2: Denetimsiz Anomali Belirleme Algoritmaları

Tablo 1: Veri Kümeleri ve Özellikleri

Yanlış Pozitif

Ger

çek

Po

ziti

f

Şekil 3 : ROC Eğrisi

Tablo 2 : Karmaşıklık Matrisi

Şekil 4: K-nn Tabanlı Yöntemler için Örnek Tasarım

Şekil 5 : Kümeleme Tabanlı Yöntemler için Örnek Tasarım

AUC Accuracy TPR FPR

Kdd99

LOF 0,562 0,750 0,348 0,250

COF 0,515 0,747 0,245 0,252

HBOS 0,991 0,932 0,971 0,068

CBLOF 0,899 0,900 0,688 0,100

LDCOF 0,926 0,775 0,915 0,225

Veri Kümesi K.D K AUC Accuracy TPR FPR K AUC Accuracy TPR FPR

1;1 0,562 0,092 0,909 0,910 0,515 0,414 0,594 0,586

1,2;1,2 0,562 0,750 0,348 0,250 0,515 0,747 0,245 0,252

1,5;1,5 0,562 0,887 0,185 0,111 0,515 0,905 0,132 0,093

kdd99 [10,20] 10

LOF COF

Tablo 3 :Kdd99 Veri Kümesi için Kümeleme Algoritmalarının Sonuçları (K.D= Kritik Değer)

Tablo 4 :Kdd99 Veri Kümesi için En Yakın Komşu Tabanlı Algoritmalarının Sonuçları

Tablo 5 :Kdd99 Veri Kümesi için HBOS Algoritmasının Sonuçları

Tablo 6 : Kdd99 Veri Kümesi için Algoritma Sonuçları

Tablo 7 : Tüm Veri Kümeleri İçin En iyi Algoritmalar

KAYNAKLAR Chandola, V., Banerjee, A., & Kumar, V. (2009). Anomaly detection: A survey. ACM computing surveys (CSUR), 41(3),15. Goldstein, M., 2015, Unsupervised Anomaly Detection Benchmark, https://doi.org/10.7910/DVN/OPQMVF, Harvard Dataverse. Goldstein, M., & Dengel, A. (2012). Histogram-based outlier score (hbos): A fast unsupervised anomaly detection algorithm. KI-2012: Poster and Demo Track, 59-63. Goldstein, M., & Uchida, S. (2016). A comparative evaluation of unsupervised anomaly detection algorithms for multivariatedata. PloS one, 11(4), e0152173. RapidMiner Studio 9.2 (2019). Data science, machine learning, predictive analytics. https://rapidminer.com/ R Core Team (2018). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna.

Uygulama sonucunda her bir veri kümesi için en başarılı algoritmalar belirlenmiştir. Uygulamada elde edilen sonuçlarınözeti Tablo 7 ‘de verilmiştir. Bazı veri kümelerinde birden fazla algoritma başarılı olurken, Speech veri kümesinde buçalışmada incelenen hiçbir algoritma anomali belirlemede başarılı sonuç vermemiştir.

İstatistiksel Tabanlı

DENETİMSİZ ANOMALİ BELİRLEME ALGORİTMALARI

En Yakın Komşu Tabanlı Kümeleme Tabanlı

KüreselYerel Yerel HBOS

K-nn LOF

COF

CBLOF LDCOF

Küresel

Veri Kümesi Algoritma Boyut AUC Accuracy TPR FPR

Aloi CBLOF 27 0,733 0,800 0,434 0,189

Annthyroid LOF 21 0,631 0,859 0,376 0,123

LDCOF 30 0,997 0,981 1,000 0,020

HBOS 30 0,986 0,962 1,000 0,039

HBOS 30 0,991 0,932 0,971 0,068

CBLOF 30 0,899 0,900 0,688 0,100

LOF 32 0,913 0,924 0,590 0,053

COF 32 0,874 0,925 0,550 0,050

Pen Global CBLOF 16 0,947 0,824 0,922 0,188

Pen Local LOF 16 0,999 0,977 1,000 0,023

HBOS 36 0,923 0,951 0,760 0,047

CBLOF 36 0,963 0,883 0,907 0,118

LDCOF 9 0,987 0,888 0,982 0,113

CBLOF 9 0,995 0,868 0,999 0,134

HBOS 9 0,923 0,951 0,760 0,047

LDCOF 9 0,987 0,888 0,982 0,113

Breast-Cancer

Kdd99

Letter

Satellite

Shuttle

Veri Kümesi K.D k Alfa Beta AUC Accuracy TPR FPR k Alfa AUC Accuracy TPR FPR

1;1 0,899 0,002 0,980 1,000 0,926 0,775 0,915 0,225

1,2;1,2 0,899 0,900 0,688 0,100 0,926 0,938 0,647 0,062

1,5;1,5 0,899 0,988 0,553 0,012 0,926 0,996 0,540 0,003

CBLOF LDCOF

kdd99 10 5 95 10 0,3

Veri Kümesi K.D AUC Accuracy TPR FPR

16,5 0,991 0,932 0,971 0,068

8 0,991 0,756 1,000 0,245kdd99

HBOS