veriyi Çizme ve veri düzleme

30
Veriyi Çizme ve Veri Düzleme Yöntemler

Upload: terra

Post on 06-Jan-2016

86 views

Category:

Documents


2 download

DESCRIPTION

Veriyi Çizme ve Veri Düzleme. Yöntemler. Veri Çizme. Grafikler veriyi analiz etmenin en iyi yoludur. Verinin genel özelliklerini, ilginç yanlarını ve hangi analizlerin uygulanması gerektiğini en kısa yoldan gösterir. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Veriyi Çizme ve Veri Düzleme

Veriyi Çizme ve Veri Düzleme

Yöntemler

Page 2: Veriyi Çizme ve Veri Düzleme

Veri ÇizmeGrafikler veriyi analiz etmenin en iyi yoludur.

Verinin genel özelliklerini, ilginç yanlarını ve hangi analizlerin uygulanması gerektiğini en kısa yoldan gösterir.

Tek bir grafik ancak tüm bunları söylemeye yetmez. Veriye farklı açılardan bakmamızı sağlayacak şekilde grafikler oluşturmak önemlidir.

Grafikte amacın farklı formlar deneyerek bakış açısını özgürleştirmek olduğunu unutmamak gerekir.

Page 3: Veriyi Çizme ve Veri Düzleme

Veriyi Grafikle Gösterme

Bilgisayar programları sınırlı sayıda grafik tarzı sunduğundan tahayyülü genişletmek yerine sınırlandırabilir.

Bu programlardaki grafik formlardan haberdar olmak iyi ancak verinizi daha iyi sunacağınıza inandığınız bir form varsa bunu kullanmak çok daha yararlı olabilir.

Page 4: Veriyi Çizme ve Veri Düzleme

Ödev

• Verilen Excel sayfasındaki verilere uygun istenen grafikleri kullandığınız herhangi bir grafik programını kullanarak oluşturun.

Page 5: Veriyi Çizme ve Veri Düzleme

VERİ DÜZLEME

Page 6: Veriyi Çizme ve Veri Düzleme

Neden Veri Düzlemesi?Verideki parazitlerden kurtulmak ve alttaki asıl eğilimi görebilmek için

veri düzleme yöntemleri uygulanır.

Page 7: Veriyi Çizme ve Veri Düzleme

Düzleme Yöntemleri

• Veriyi Farklı Biçimde İfade Etme

• Veriyi Ortalama Değerlerle İfade Etme– Hareketli (yürüyen) Ortalama– Üstel Ağırlıklı Yürüyen Ortalama

Page 8: Veriyi Çizme ve Veri Düzleme

Veriyi Farklı Biçimlerde İfade Etme

0 20 40 60 8010

100

1000

Ba

kýr

De

riþ

imi (

ug

/l)

Gün

B

0 20 40 60 800

100

200

300

400

Ba

kýr

De

riþ

imi (

ug

/l)

Gün

B

Page 9: Veriyi Çizme ve Veri Düzleme

Hareketli Ortalama• En son k tane veri değerinin

toplamının k’ya bölünmesi ile elde edilir. Yedi günlük hareketli ortalama (HO7) en son 7 veri noktasını kullanır. HO10 son 10 veriyi vb. Her veri noktasına aynı ağırlık verilir.

• i=k,k+1,…..n

• Her yeni gözlem yapıldığında toplam bir terim azaltılıp diğer nokta eklenir.

i

kijjki yky

1

1)(

Page 10: Veriyi Çizme ve Veri Düzleme

Örnek

i

kijjki yky

1

1)(

1 2 3 4 5 6 7

Y3 (k) = 2.0

Y4(k) = 3.0

Y4 (k) = 2.0 + (1/3)*(4-1) = 3

Page 11: Veriyi Çizme ve Veri Düzleme

Örnek

Hareketli ortalama verideki eğilimi daha iyi görmemizi sağlar.

10

60

110

160

210

260

310

360

410

0 20 40 60 80

gün

ba

kır

ko

ns

t. (

ug

/l)

Veri

HO(5)

10

60

110

160

210

260

310

360

410

0 20 40 60 80

gün

ba

kır

ko

ns

t. (

ug

/l)

Veri

HO(10)

Page 12: Veriyi Çizme ve Veri Düzleme

Üstel (exponential) HO

• Basit HO’da hem çok geçmişte kalan hem de son zamanın verilerinin ağrılıkları eşittir. Yani HO (30) için 4 hafta öncenin durumu, dünkü durumla aynı şekilde yansıtılmıştır ki belki de söz konusu sistem için 1 ay öncenin verisinin hiçbir önemi kalmamıştır. ÜAHO (üstel ağırlıklı hareketli ortalama) ise son zamanlarda olan olaylara daha fazla, geçmişte olanlara ise göreceli olarak daha az ağırlık verir.

• Örneğin bir nehre boşaltılan BOİ, boşaltıldığı gün önemlidir. 2 -3 günlük ortalama da önemli olabilir zira 2-3 günlük ÇO azalması felaket olabilir. (organizmalar 1 günlük düşük ÇO seviyesini idare edebilirler)

Page 13: Veriyi Çizme ve Veri Düzleme

ÜAHO

• Bazı kirleticiler etkilerini yıllarca göstermeyebilirler. Kanserojen maddeler için uzun dönemli (yıllar) ortalamalar önemli olabilir. İlk alınan tahriş edici bir madde çok yakında alınan bir maddeden daha önemli olabilir. Örneğin akciğerdeki asbest birikimi gibi. Bu durumda kirliliğin kaynağı şimdiki etkilerle bağlantısı ile ilgili bir istatistik verilmek isteniyorsa geçmiş olaylara daha fazla ağırlık verilir.

Page 14: Veriyi Çizme ve Veri Düzleme

ÜAHO

• i=0,1,…

• Ф = ÜAHO’nun hafızasının uzunluğunu belirleyen, uygun olarak seçilmiş 0 ile 1 arasında bir sayı

• Terim sayısı ise sonsuza giderken gittikçe 0’a yaklaştığından genellikle baştan birkaç terim alınır. Örneğin Ф 0.3 olarak alınırsa

0

)1()(j

jij

i ykZ

...)3.0)(3.01()3.0)(3.01()3.01( 22

100 yyyZ

..019.0063.021.07.0 32100 yyyyZ

•Her yeni gözlem yapıldığında ÜOHA kolayca yenilenebilir.

iii yZZ )1(1

Page 15: Veriyi Çizme ve Veri Düzleme

0

0.2

0.4

0.6

0.8

1

0510

Geçmiş günler j

ırlık

(fi

^j*

(1-f

i))0.1

0.3

0.5

0.7

0.9

Ф’nin büyüklüğüne göre geçmiş zamana ait verilere nasıl bir ağırlık verileceği şekilde görülebilir. Ф’nin değeri büyükse uzun dönemli dairesel hareketler daha net görülür. Eğer Ф’nin değeri küçükse ÜAHO’nun hafızası kısadır, birkaç günü geçmiş değerler hızla sıfıra yaklaşır. Genellikle Ф’nin 0.3 ile 0.5 arasındaki bir değeri düzleme ve karşılık gelmede iyi bir denge oluşturur.

Page 16: Veriyi Çizme ve Veri Düzleme

ÜAHO Ф = 0.3

10

60

110

160

210

260

310

360

410

0 20 40 60 80

gün

bakı

r kon

st. (

ug/l)

Veri

HO(5)

ÜAHO

Page 17: Veriyi Çizme ve Veri Düzleme

Özet ve Önemli Noktalar• Bu yöntemler ilk ve keşif analizleri için

idealdir. • Uygulamaları hızlı, belirgin ve kolaydır.• En iyi Ф değerini bulmak veriye eğilim

çizgisi uydurarak elde edilebilir. • Sadece verinin gösterdiği eğilimi

belirlemek amaçsa,geleceğe yönelik tahminlerde bulunmak gerekmiyorsa gördüğümüz temel düzleme yöntemleri yeterlidir.

• Daha düzleşmiş bir sistem için, kısa süreli değişikliklere sistemce verilen yanıt feda edilir.

• ÜAHO ise hem düzleşme hem de göreceli olarak daha karşılık vericidir.

• Ortalamayı almadan önce eğer çok fazla sayıda değilse veri setindeki eksikler lineer ara değerleme (interpolation) ile bulunabilir

Page 18: Veriyi Çizme ve Veri Düzleme

Dağılımın Şeklini Görme

Page 19: Veriyi Çizme ve Veri Düzleme

• Çoğunlukla bir veri setine ilk yapılan şey ortalama ve standart sapmasını hesaplamaktır.

• Ancak çevre mühendisliğinde nehir kalitesi verileri, arıtma tesisi giriş ve çıkış su kalitesi, hava kalitesi verileri genellikle pozitif çarpıklık (yüksek değerlerden oluşan bir kuyruk), tam normal dağılım göstermeyen özelliktedir.

• Bu nedenle setin daha genel bir analizinin yapılması gerekmektedir.

Page 20: Veriyi Çizme ve Veri Düzleme

• Eğer bir sürecin %90 oranında belli bir performans seviyesinde başarılı olduğunu bulmak isterseniz (yüzde 90 dilimi), normal dağılım varsayarak hesapladığınız seviye lognormal varsayarak hesapladığınız seviyeden çok daha düşük olacaktır. Bu durumda dağılımı varsaymak yerine gerçek veriyi kullanıp hesaplamak gerekir.

• Eğer sorun örneklemin ortalamasının %95 seviyesindeki güvenilirlik aralığını hesaplamaksa lognormal olması fark etmez,çünkü ortalamaların dağılımı örneklemin dağılımından bakmaksızın normal olma eğilimindedir.

Page 21: Veriyi Çizme ve Veri Düzleme

Olasılık Çizileri (Grafikleri)

Günün Saati Tarih 04:00 08:00 12:00 16:00 20:00 24:00:00

10.Şub 717 946 623 490 666 82811.Şub 1135 241 396 1070 440 53412.Şub 1035 265 419 413 961 30813.Şub 1174 1105 659 801 720 45414.Şub 316 758 769 574 1135 114215.Şub 505 221 957 654 510 106716.Şub 329 371 1081 621 235 99317.Şub 1019 1023 1167 1056 560 70818.Şub 340 949 940 233 1158 40719.Şub 853 754 207 852 318 35820.Şub 356 847 711 1185 825 61821.Şub 454 1080 440 872 294 76322.Şub 776 502 1146 1054 888 26623.Şub 619 691 416 1111 973 80724.Şub 722 368 686 915 361 34625.Şub 1110 374 494 265 1078 48126.Şub 472 671 556

BOİ5 Değerleri

Beş günlük Biyolojik Oksijen İhtiyacını (BOİ5) gösteren veri setinin yapısını belirlemek.

Atıksu artıma tesisindeki bir sürecin tasarımı için toplam 99 adet, 4 saatlik kompozit numune yapılmış ölçümlerden ortalama BOİ5 değeri ile yaklaşık zamanın %5’inde geçilen BOİ5 konsantrasyon değerini belirlemek istiyoruz. Suyun kalitesindeki değişimin şekli aynı zamanda BOİ5 yüklemesindeki değişimi azaltmak üzere bir eşitleme işleminin uygunluğunu da göstermesi açısından önemli. Bu nedenle açık,bütünsel ve yanlış anlaşılmaya mahal vermeyecek bir çizisel gösterime ihtiyacımız var.

Page 22: Veriyi Çizme ve Veri Düzleme

0

200

400

600

800

1000

1200

1400

0 20 40 60 80 100

Ölçüm Numarası

BO

İ5 K

on

st

Verinin zamana karşı çizisi.

Ortalamanın altında ve üstünde hemen hemen eşit bir değişim, ortalama 687 mg/L, değerler 207’ den 1185’e kadar değişiyor. Dairesel bir örüntü (pattern) var ancak çok düzenli değil.

Tablodaki veriyi yorumlayabilmek için olasılık çizisi gerekir. Olasılık çizisi ya da sıklık dağılımı gözlenen değerleri küçükten büyüğe sıralayarak oluşturulur.

Page 23: Veriyi Çizme ve Veri Düzleme

p= i/(n+1) (n küçükse, mühendislerin tercihi)

p= (i-0.5)/n (n küçükse)

p=(i-a)/(n+1-2a), a = 0.5 or 0.375

BOİ5 Sıralama Çizme Yerimg/l i p=i/(n+1)

207 1 1221 2 2223 3 3235 4 4

…1158 96 961167 97 971174 98 981185 99 99

Page 24: Veriyi Çizme ve Veri Düzleme

99,9999580604020510,1

200

400

600

800

1000

1200

200

400

600

800

1000

1200

02468101214

Counts

Bin

Cumulative Counts

BO

İ5 K

onsa

ntra

syon

u

Eğer dağılım normalse olasılık çizi kağıdında düz bir çizgi olması gerekirdi.

X ekseni (%) : BOİ5 değerinin karşılık gelen BOİ5 değerinden az ya da eşit olma olasılığı

Simetrik ancak normal değil

BOİ5 Verisi İçin Olasılık Çizisi

(Normal Olasılık Çizi Kağıdında

S şekli kalın kuyrukları olan dağılımların karakteristiğidir. İnce kuyruklu ya da çarpık bir dağılım da farklı eğimli bir S şekli verir. Bizim dağılımımızın şekli nasıl?

Page 25: Veriyi Çizme ve Veri Düzleme

0

5

10

15

20

25

200 400 600 800 1000 1200 1400

Bin

Frek

ans

Say

ı S

ıklığ

ı

BOİ5 Konsantrasyon, mg/l

Şekilde de görüldüğü gibi Tektip dağılıma

yakın

BOİ5 Verisi Histogramı

Page 26: Veriyi Çizme ve Veri Düzleme

0

200

400

600

800

1000

1200

1400

0 20 40 60 80 100

BOİ olasılık < y ekseni BOİ5 değeri

BO

İ5 K

on

st

Eğer dağılım tektip (uniform) ise lineer ölçekte düz bir çizgi oluşturur.

BOİ5 Değerleri tektipe yakın bir dağılıma gösteriyorlar.

BOİ5 Verisi İçin Olasılık Çizisi

(Lineer Ölçekli Grafik Kağıdında)

Page 27: Veriyi Çizme ve Veri Düzleme

99,9999580604020510,1

200

400

600

800

1000

1200

200

400

600

800

1000

1200

02468101214Counts

Bin

Cumulative Counts

1146

Ortalama Standard Sapma688.2121 296.3588

Eğer verinin normal dağılıma sahip olduğunu varsayarak %95’lik değeri 688 + 1,65 x 296.35= 1177 mg/l

Bu değer verinin gerçekte gösterdiği %95’lik sınır değerinden daha fazladır. Ancak zaten bu örnekte verinin normal dağılım göstermediği, tektip dağılım olduğu histogramda açıkça görülmüştür.

Zamanın %95’inde Küçük Olacağı BOİ5 Değeri

Page 28: Veriyi Çizme ve Veri Düzleme

Notlar

• Olasılık çizi kağıdı aynı zamanda logaritmik eksenli olarak da bulunur. Eğer bu kağıtta çizilen olasılıklar düz bir çizgi oluşturuyorsa, dağılım lognormaldir.

• Eğer verinizin lognormal olarak dağıldığına inanıyorsanız, noktalardan geçen göz kararı bir doğru çizin. Eğer çizilen doğru görülen noktaları iyi tanımlamıyorsa o zaman düzleştirilmiş bir eğri çizin.

Page 29: Veriyi Çizme ve Veri Düzleme

Olasılık Çizilerinin Kullanımı ve Yanlış

Kullanımı• Mühendislik kitaplarında olasılık çizi

kağıdına çizildiğinde p=%50’nin ortalama, p =%50’den p=%84.1’e olan uzaklığın da standard sapma olduğu söylenir. Bu çizisel hesaplar ancak ve ancak veri normal olduğu zaman geçerlidir.

• Çoğu çevresel veri normal dağılım göstermediğinden, grafiksel yöntemin çok yararlı olduğu söylenemez. Ancak çizi, medyanı (p = %50) ve belli bir yüzde değerini direkt bulmak için idealdir.

Page 30: Veriyi Çizme ve Veri Düzleme

Özet• Olasılık dağılım çizileri

dağılımın şeklini görmek için kullanışlı grafiksel araçlardır.

• Ancak çevresel veriler söz konusu olduğunda diğer grafiklerle birlikte kullanılmalıdır.

• Olasılık çizileri yüzde değerleri elde etmede yararlıdır.

• Özel durumlar dışında olasılık çizilerini kullanarak ortalama ve standart sapma bulmaktan kaçınılmalıdır.

• Eğer veride pozitif bir çarpıklık varsa logaritmik ölçek kullanmak uygun olabilir.