verİ madencİlİĞİ · 2016. 6. 22. · veri azaltma veri miktarı çok fazla olduğu zaman veri...

30
VERİ MADENCİLİĞİ (Veri Ön İşleme-2)

Upload: others

Post on 29-Jan-2021

18 views

Category:

Documents


0 download

TRANSCRIPT

  • VERİ MADENCİLİĞİ(Veri Ön İşleme-2)

  • Veri Dönüşümü Veri, veri madenciliği uygulamaları için uygun

    olmayabilir Seçilen algoritmaya

    Veri belirleyici değil Çözüm

    Veri düzeltme

    uygun olmayabilir

    Normalizasyon

  • Normalizasyon min-max normalizasyon ondalık normalizasyon

    min-max normalleştirmesi ile Ondalık ölçekleme ileorijinal veriler yeni veri normalleştirmede ise, elearalığına doğrusal dönüşümile dönüştürülürler. Bu veri

    alınandeğerlerinin

    değişkeninondalık kısmı

    aralığıaralığıdır.

    genellikle 0-1 hareket ettirilereknormalleştirmegerçekleştirilir. Hareket z-score normalizasyon edecek ondalık nokta sayısı,

    z Skor normalleştirmede değişkenin maksimum(veya 0 ortalama mutlak değerine bağlıdır.normalleştirme) ise Ondalık ölçeklemenindeğişkenin her hangi bir y formülü aşağıdaki şekildedir:değeri, değişkenin ortalaması Örneğin 900 maksimum

    olacağındanve standart sapmasına bağlı

    olarak bilinen Z dönüşümü ilenormalleştirilir.

    değer ise, n=3900 sayısı 0,9 olaraknormalleştirilir.

  • Normalizasyon

  • 5

    Normalizasyon• Min-max normalizasyon:

    – Ör. Yıllık gelir $12,000 ile $98,000 arasını [0.0, 1.0] aralığına normalizeedelim. $73,000 kaça denk gelir?

    • Z-score normalizasyon (μ: ortalama, σ: standard sapma):

    – Ör. Let μ = 54,000, σ = 16,000. Öyleyse:• Ondalıklı Normalizasyon

    $73,000 kaça denk gelir? v’= 0.73

    716.00)00.1(000,12000,98

    000,12600,73

    AAA

    AA

    A

    minnewminnewmaxnewminmax

    minvv _)__('

    A

    Avv

    '

    j

    vv

    10'

    225.1000,16

    000,54600,73

  • Nitelik Oluşturma

    Yeni nitelikler yarat orjinal niteliklerden

    • alan=boy x endaha önemli bilgi içersin

    veridaha

    madenciliği algoritmalarının başarımıiyi olsun

  • Veri Azaltma

  • Veri Azaltma Veri miktarı çok fazla olduğu zaman veri madenciliği

    algoritmalarının çalışması ve sonuç üretmesi çok uzunsürebilir veriyi azaltma başarımı artırır sonucun (nerdeyse) hiç değişmemesi

    Veri azaltma nitelik azaltma

    gerekir

    veri veri veri

    sıkıştırmaayrıklaştırmaküçültme

  • Nitelik Azaltma

    Nitelikler kümesinin bir alt kümesi seçilerekveri madenciliği işlemi yapılır.

    d boyutlu veri kümesi k

  • Örnek

  • Veri Sıkıştırma

    Verinin boyutunu azaltır daha az saklama ortamı veriye ulaşmak daha çabuk

    Kayıplı ve kayıpsız veri sıkıştırma bazı yöntemler bazı veri tiplerine uygun

    Eğerveri

    veri madenciliği yöntemi sıkıştırılmışüzerinde doğrudan çalışabiliyorsa

    elverişli

  • Veri Sıkıştırma

    Orijinal veri Sıkıştırılmış veri

    kayıpsız

    Orijinale Benzeyen Veri

  • Veri Ayrıklaştırma

    Bazı veri madenciliği algoritmaları sadeceayrık veriler ile çalışır.

    Sürekli bir nitelik değerini bölerek heraralığı etiketler.

    Verinin değeri, bulunduğu aralığın etiketiile değişir.

    Veri boyutu küçülür.

  • Veri AyrıklaştırmaMüşteri Yaşına göre ayrıklaştırma

    BebekÇocuk

    GençYetişkin

    Orta Yaşİleri yaş

    YaşlıÇok yaşlı

  • Veri Küçültme

    Veriyi farklı şekillerde gösterme

    •••

    histogramkümelemeörnekleme

  • Histogram ile Veri Küçültme

    Verinindağılımı Veriyi

    bölerekher bölümiçin verideğerinigösterir(toplam,ortalama)

  • Kümeleme ile Veri Küçültme

    Veri kümelere ayrılır Veri kümeleri temsil eden örnekler

    merkezleri) ve aykırılıklar ile temsil(kümeedilir

    Etkisi verinin dağılımına bağlı.

  • Kümeleme ile veri küçültme• Kümelenmiş veri • Her kümeden orantılı

    sayıda temsilci seçimi

  • Örnekleme ile Veri Küçültme

    Büyük veri kümesini daha küçük bir altküme ile temsil etme

    Alt küme nasıl seçiliyor? yerine yerine

    koymadan örnekleme (SRSWOR)koyarak örnekleme (SRSWR)

    katman örnekleme (katman: nitelik değerinegöre grup)

  • Örnekleme

    Raw Data

  • Benzerlik ve Farklılık

  • Benzerlik ve Farklılık

    Benzerlik iki nesnenin benzerliğini ölçen sayısal değer nesneler birbirine daha benzer ise daha genelde 0-1 aralığında değer alır

    Farklılık

    büyük

    iki nesnenin birbirinden ne kadar farklıolduğunu gösteren sayısal değer

    nesneler birbirine daha benzer ise daha en küçük farklılık genelde 0 üst sınır değişebilir.

    küçük

  • Uzaklık Çeşitleri

    Öklid Minkowski (Manhattan)

  • Öklid Uzaklığı

  • Öklid Uzaklığı

    0

    1

    2

    3

    0 1 2 3 4 5 6

    p1

    p2

    p3 p4

    point x yp1 0 2p2 2 0p3 3 1p4 5 1

    Uzaklık Matrisi

    p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0

  • Minkowski Uzaklığı

  • Minkowski Uzaklığı

    Öklid Uzaklık Matrisi

    point x yp1 0 2p2 2 0p3 3 1p4 5 1

    L1 p1 p2 p3 p4p1 0 4 4 6p2 4 0 2 4p3 4 2 0 2p4 6 4 2 0

    L2 p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0

    Manhattan Uzaklık Matrisi

  • Benzerlik Özellikleri

    İki nesne arası benzerlik özellikleri 1. 2.

    sim(i,j)>=0sim(i,j)=sim(j,i)

  • İkili Değişkenler Arası Benzerlik

  • Örnek