verİ madencİlİĞİ · 2016. 6. 22. · veri azaltma veri miktarı çok fazla olduğu zaman veri...
TRANSCRIPT
-
VERİ MADENCİLİĞİ(Veri Ön İşleme-2)
-
Veri Dönüşümü Veri, veri madenciliği uygulamaları için uygun
olmayabilir Seçilen algoritmaya
Veri belirleyici değil Çözüm
Veri düzeltme
uygun olmayabilir
Normalizasyon
-
Normalizasyon min-max normalizasyon ondalık normalizasyon
min-max normalleştirmesi ile Ondalık ölçekleme ileorijinal veriler yeni veri normalleştirmede ise, elearalığına doğrusal dönüşümile dönüştürülürler. Bu veri
alınandeğerlerinin
değişkeninondalık kısmı
aralığıaralığıdır.
genellikle 0-1 hareket ettirilereknormalleştirmegerçekleştirilir. Hareket z-score normalizasyon edecek ondalık nokta sayısı,
z Skor normalleştirmede değişkenin maksimum(veya 0 ortalama mutlak değerine bağlıdır.normalleştirme) ise Ondalık ölçeklemenindeğişkenin her hangi bir y formülü aşağıdaki şekildedir:değeri, değişkenin ortalaması Örneğin 900 maksimum
olacağındanve standart sapmasına bağlı
olarak bilinen Z dönüşümü ilenormalleştirilir.
değer ise, n=3900 sayısı 0,9 olaraknormalleştirilir.
-
Normalizasyon
-
5
Normalizasyon• Min-max normalizasyon:
– Ör. Yıllık gelir $12,000 ile $98,000 arasını [0.0, 1.0] aralığına normalizeedelim. $73,000 kaça denk gelir?
• Z-score normalizasyon (μ: ortalama, σ: standard sapma):
– Ör. Let μ = 54,000, σ = 16,000. Öyleyse:• Ondalıklı Normalizasyon
$73,000 kaça denk gelir? v’= 0.73
716.00)00.1(000,12000,98
000,12600,73
AAA
AA
A
minnewminnewmaxnewminmax
minvv _)__('
A
Avv
'
j
vv
10'
225.1000,16
000,54600,73
-
Nitelik Oluşturma
Yeni nitelikler yarat orjinal niteliklerden
• alan=boy x endaha önemli bilgi içersin
veridaha
madenciliği algoritmalarının başarımıiyi olsun
-
Veri Azaltma
-
Veri Azaltma Veri miktarı çok fazla olduğu zaman veri madenciliği
algoritmalarının çalışması ve sonuç üretmesi çok uzunsürebilir veriyi azaltma başarımı artırır sonucun (nerdeyse) hiç değişmemesi
Veri azaltma nitelik azaltma
gerekir
veri veri veri
sıkıştırmaayrıklaştırmaküçültme
-
Nitelik Azaltma
Nitelikler kümesinin bir alt kümesi seçilerekveri madenciliği işlemi yapılır.
d boyutlu veri kümesi k
-
Örnek
-
Veri Sıkıştırma
Verinin boyutunu azaltır daha az saklama ortamı veriye ulaşmak daha çabuk
Kayıplı ve kayıpsız veri sıkıştırma bazı yöntemler bazı veri tiplerine uygun
Eğerveri
veri madenciliği yöntemi sıkıştırılmışüzerinde doğrudan çalışabiliyorsa
elverişli
-
Veri Sıkıştırma
Orijinal veri Sıkıştırılmış veri
kayıpsız
Orijinale Benzeyen Veri
-
Veri Ayrıklaştırma
Bazı veri madenciliği algoritmaları sadeceayrık veriler ile çalışır.
Sürekli bir nitelik değerini bölerek heraralığı etiketler.
Verinin değeri, bulunduğu aralığın etiketiile değişir.
Veri boyutu küçülür.
-
Veri AyrıklaştırmaMüşteri Yaşına göre ayrıklaştırma
BebekÇocuk
GençYetişkin
Orta Yaşİleri yaş
YaşlıÇok yaşlı
-
Veri Küçültme
Veriyi farklı şekillerde gösterme
•••
histogramkümelemeörnekleme
-
Histogram ile Veri Küçültme
Verinindağılımı Veriyi
bölerekher bölümiçin verideğerinigösterir(toplam,ortalama)
-
Kümeleme ile Veri Küçültme
Veri kümelere ayrılır Veri kümeleri temsil eden örnekler
merkezleri) ve aykırılıklar ile temsil(kümeedilir
Etkisi verinin dağılımına bağlı.
-
Kümeleme ile veri küçültme• Kümelenmiş veri • Her kümeden orantılı
sayıda temsilci seçimi
-
Örnekleme ile Veri Küçültme
Büyük veri kümesini daha küçük bir altküme ile temsil etme
Alt küme nasıl seçiliyor? yerine yerine
koymadan örnekleme (SRSWOR)koyarak örnekleme (SRSWR)
katman örnekleme (katman: nitelik değerinegöre grup)
-
Örnekleme
Raw Data
-
Benzerlik ve Farklılık
-
Benzerlik ve Farklılık
Benzerlik iki nesnenin benzerliğini ölçen sayısal değer nesneler birbirine daha benzer ise daha genelde 0-1 aralığında değer alır
Farklılık
büyük
iki nesnenin birbirinden ne kadar farklıolduğunu gösteren sayısal değer
nesneler birbirine daha benzer ise daha en küçük farklılık genelde 0 üst sınır değişebilir.
küçük
-
Uzaklık Çeşitleri
Öklid Minkowski (Manhattan)
-
Öklid Uzaklığı
-
Öklid Uzaklığı
0
1
2
3
0 1 2 3 4 5 6
p1
p2
p3 p4
point x yp1 0 2p2 2 0p3 3 1p4 5 1
Uzaklık Matrisi
p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0
-
Minkowski Uzaklığı
-
Minkowski Uzaklığı
Öklid Uzaklık Matrisi
point x yp1 0 2p2 2 0p3 3 1p4 5 1
L1 p1 p2 p3 p4p1 0 4 4 6p2 4 0 2 4p3 4 2 0 2p4 6 4 2 0
L2 p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0
Manhattan Uzaklık Matrisi
-
Benzerlik Özellikleri
İki nesne arası benzerlik özellikleri 1. 2.
sim(i,j)>=0sim(i,j)=sim(j,i)
-
İkili Değişkenler Arası Benzerlik
-
Örnek