pengantar statisik dan analisis data -...
TRANSCRIPT
PENGANTAR STATISIK PENGANTAR STATISIK DAN ANALISIS DATA
1. Statistik dan StatistikaP l i d S l2. Populasi dan Sampel
3. Jenis-jenis Observasi4. STATISTIKA DESKRIPTIF
•Sari Numerik•Penyajian DataPenyajian Data
MA 2181 Analisis Data8 Agustus 2011
Utriweni Mukhaiyar
IlustrasiIlustrasi2
Data banyaknya pelanggan yang datang ke sebuah mini market di 15 hari tertentu pada bulan
lJuli 2011.26 37 76 49 95 69 83 87 39 95 59 83 83 87 463 49 95 9 3 39 95 59 3 4
Q1: Berapa rata-rata banyak pelanggan
Q2 : Seberapamenyebarnya banyak
Q4 : Apakah rata-rata pelanggan yang datang di mini market tsb y p gg
yang datang di 15 hari tsb?
menyebarnya banyak pelanggan yang datang
dalm 15 hari tsb?
ya g data g d a et tsb lebih besar dibanding mini
market lainnya
Q3 : Adakah hari yang perlu
perhatian khusus?perhatian khusus?
St ti tik d St ti tikStatistik dan Statistika3
Statistik : nilai-nilai ukuran data yang mudahStatistik : nilai nilai ukuran data yang mudahdimengerti.Contoh : statistik IP mahasiswa ITB semester II Contoh : statistik IP mahasiswa ITB semester II 2010-2011
Statistika : ilmu yang berkaitan dengan carapengumpulan pengolahan analisis danpengumpulan, pengolahan, analisis danpernarikan kesimpulan atas data.
Jenis-jenis StatistikaJenis jenis Statistika4
1. Statistika deskriptif: metode yang berkaitan dengan pengumpulan danberkaitan dengan pengumpulan danpenyajian data.St ti tik i f i t d 2. Statistika inferensi: metode yang berkaitan dengan analisis sampel untuk
ik k i lpenarikan kesimpulan tentangkarakteristik populasi.
Populasi dan Sampelp p5
PopulasiPopulasi
Sampel
setiap obyek populasi memilikikemungkinan/kesempatan yang Sampel Acaksama untuk terpilih
p
hasil pengukuran atau pengamatan Data
Contoh Populasi dan SampelContoh Populasi dan Sampel6
Ak dil k k li i k h h Akan dilakukan penelitian apakah tahunpertama di ITB (TPB) memberikan pengaruhterhadap perubahan berat badan mahasiswa terhadap perubahan berat badan mahasiswa. Untuk itu dilakukan pengambilan data padahari terakhir ujian TPB.
PopulasiSeluruh
Kendala: - sangat banyak, -menghabiskanwaktu -menghabiskan biayaSe u u
mahasiswaTPB ITB
?
waktu, menghabiskan biaya
Kaidah PengambilanSampel (Teknik
Keterwakilan sampelatas populasi ??
Sampel
? p (Sampling)
p p
SampelContoh: tiap-tiap kelas TPB diambil secaraacak 10 orang mahasiswa.
Jenis-jenis ObservasiJenis jenis Observasi7
OBSERVASI / DATAOBSERVASI / DATA
KUALITATIF KUANTITATIF
Nominal Ordinal/Rank Diskrit Kontinu
Tidak mengenalurutan dan operasi
aritmatika
Mengenal urutandan operasiaritmatika
BerhubunganBerhubungan dengan‘proses menghitung’, dan pengamatan atas
Didasarkan pada suatuselang/interval
sehingga meliputiaritmatika aritmatika p ghimpunan terhitung. gsemua bilangan riil
Jnis bidang datar (persegi lingkaran
Kapasitas hard disk Kapasitas hard disk (80GB, 160GB,
B k Banyaknya peserta OSKM 2011 dari
fakultas
Waktu tercepat mobil Waktu tercepat mobil F1 di setiap (persegi, lingkaran,
jajaran genjang, dll), jenis kelamin , dll (ekonomi, bisnis), dll
(320GB, ...), kelas
penumpang pesawat (ekonomi, bisnis), dll p
fakultas MIPA, banyaknya
yang antri di depan bioskop, dll g
ppertandingan, luas
daerah hijau di kota Bandung, dll
© 2008 by UM
Statistika DeskriptifStatistika Deskriptif8
Metode yang berkaitandengan pengolahan dan penyajiang p g p y j
suatu gugus data sehinggamemberikan informasi yang
b berguna.
bentuk distribusi datadata
Karakteristik DistribusiKarakter st k D str bus9
1 PARAMETER Ukuranmean, median, modus,
kuartil atas kuartil1. PARAMETER DISTRIBUSI
UkuranPemusatan
UkuranPenyebaran
kuartil atas, kuartilbawah, dll
Range, simpangan baku, variansi, jangkauan antaryPenyebaran
Kemencengan
, j gkuartil, dll
skewness
2 BENTUK
Kelancipan kurtosis
2. BENTUK DISTRIBUSI Simetris
Menceng/skew P itif
mean = median
mean > medianPositif
gMenceng/skew
NegatifggBerpuncak
TunggalBerpuncak
Jamak mean < median
# modus > 1 # modus = 1
CONTOH KASUSCONTOH KASUS10
b k l d k b hData banyaknya pelanggan yang datang ke sebuah mini market di 15 hari tertentu pada bulan Juli 2011. (n = 15)
26 37 76 49 95 69 83 87 39 95 59 83 83 87 46
x1 x2 x15x9 x12
Data yang diurutkan:Data yang diurutkan:
26 37 39 46 49 59 69 76 83 83 83 87 87 95 95
x(1) x(2) x(15)x(9) x(12)
Adakah perbedaan dari penyajian kedua data di atas?minimum maksimum
Ukuran Pemusatan & P b D Penyebaran Data
11
Uk d Ukuran pemusatan datastatistik yang memberikan informasi dimana data terkumpul dengan ukuran/jumlah tertentuterkumpul dengan ukuran/jumlah tertentu.Contoh : Mean (rataan), kuartil bawah, kuartil tengah (median) kuartil atas modus persentil tengah (median), kuartil atas, modus, persentil, ...
Ukuran penyebaran datastatistik yang memberikan informasi bagaimana statistik yang memberikan informasi bagaimana data menyebar di sekitar pusat data.Contoh : range (jangkauan data), IQR (jangkauan g (j g ), Q (j gantar kuartil), variansi, standar deviasi (simpangan baku), ...
Ukuran Pemusatan Data Ukuran Pemusatan Data 12
M ( )1. Mean (rata-rata)
1 n
1
1i
ix x
n
1 2 15...x x x
Contoh :
1 2 15...15
87 37 46
x x xx
87 37 ... 46 67,6015
50% data (50% data (akhirakhir))50 % data (50 % data (awalawal))13
26 37 39 46 49 59 69 76 83 83 83 87 87 95 95
2 Medianx(8) 3 x 2 x 2 x
2. MedianNilai tengah yang membagi dua kelompok data sama banyakdata sama banyak.
med = x(8) = 76
3. Modus
med x(8) 76
3. ModusNilai yang paling sering muncul.
d 83mod = 83
4. Kuartil
25 %25 % 25 %25 % 25 %25 % 25 %25 %14
26 37 39 46 49 59 69 76 83 83 83 87 87 95 9525 %25 % 25 %25 % 25 %25 % 25 %25 %26 37 39 46 49 59 69 76 83 83 83 87 87 95 95
Kuartil bawah (q ) :
q1 q2 = med q3
46q x x q x Kuartil bawah (q1) : 1 (4)15 14
46q x x
1 14
nq x
K til t h ( )
6
2 2( 1) 14 2n nq x x
Kuartil tengah (q2) :
2 (8)15 12
76q x x
3 (12)3(15 1)4
87q x x
3 3( 1)4nq x
Kuartil atas (q3) :
5. Persentil
15 26 37 39 46 49 59 69 76 83 83 83 87 87 95 95
p25 p50 = med p75
• Persentil ke-i : ( 1)100
i nx
• Persentil ke-50 :50( 1) 1
100 2n nx x
median100 2
• Persentil ke-25 dan Persentil ke-75?
kuartil ataskuartil bawah
Ukuran Penyebaran Data Ukuran Penyebaran Data 16
Data : x1, x2, x3, ..., xn
Rataan : xUkuran penyebaran data yang melihat bagaimana SETIAP (keseluruhan) observasi terpisah dari pusat data.
Tidak memberikan informasi apa-apa karena : 1
( )n
ii
x x
apa, karena : 1i
1 1( ) 0
n n
i ii i
x x x nx nx nx nJumlah Kuadrat (JK)
1 1i i 2
1( )i
ix x
Ukuran Penyebaran DataUkuran Penyebaran Data17
1 Jangkauan data (Range)1. Jangkauan data (Range)R = datamax – datamin
R = 95 – 26 = 69
2
12 2 21 1
n
in ni
x
2 529 2571
2. Variansi? 12 2 2
1 1
1 1( ) 1 1
ii i
i i
s x x xn n n
2 529,2571s ?
3. Simpangan Baku (standard deviation)JKXX
529, 2571 23,01s p g ( )
s = √s2
4 Jangkauan antar kuartil4. Jangkauan antar kuartildq = q3 – q1 dq = q3 – q1 = 87 – 46 = 41
Data PencilanData Pencilan18
Data yang nilainya berbeda jauh dari kelompok Data yang nilainya berbeda jauh dari kelompok data yang lain.
Bagaimana mendeteksi data pencilan ??1. Hitung dq dq = 41
Pilih nil i k 3/2 (tid k mutl k)
g q
2. Hitung BBP = q1 – k.dq
q
BBP = 46 – (1,5)(41) = -15,5Pilih nilai k = 3/2 (tidak mutlak)
3. Hitung BAP = q3 + k.dq BAP = 87 + (1,5)(41) = 148,5
4. Pencilan bawah < BBP tidak ada pencilan bawah
5. Pencilan atas > BAP tidak ada pencilan atas
SARI NUMERIKSARI NUMERIKCount (banyak data, n) 15Sum (jumlah data) 1014A ( t t ) 67 6
19
Average (rata-rata) 67.6Median (kuartil tengah) 76Mode (modus) 83
mean < median
Minimum 26Maximum 95Range 69Range 69Standard Deviation 23.01Variance 529.2571Sk *
Menceng kiri
Skewness -0.50*Kurtosis -1.23*25th Percentile (persentil-25) 46(p )50th Percentile (persentil-50) 7675th Percentile (persentil-75) 87Interquartile Range (dk) 41Interquartile Range (dk) 41* Perhitungan dengan Mic. Excel
Penyajian DataPenyajian Data20
1. Tabel Distribusi FrekuensiPi Ch t2. Pie Chart
3. Dot PlotHi4. Histogram
5. Diagram Batang – Daun (stem - leaf)6. Diagram Kotak – Titik (box plot)7. dll…
Skala penggambaran harus diperhatikan dalam penyajian data
Penyajian data dalam bentuk grafik dapat dilakukan secara
Skala penggambaran harus diperhatikan dalam penyajian data dalam bentuk grafik.
manual maupun menggunakan software-software statistik seperti Microsoft Excel, SPSS, SAS, S-Plus, Minitab dan lainnya.
Tabel Distribusi FrekuensiTabel Distribusi Frekuensi21
D t b k l d t k b h Data banyaknya pelanggan yang datang ke sebuah mini market di 15 hari tertentu pada bulan Juli 2011.
26 37 39 46 49 59 69 76 83 83 83 87 87 95 95
Kelas Titik Frekuensi Frekuensi
26 37 39 46 49 59 69 76 83 83 83 87 87 95 95
Interval Tengah Kelas
(f) Kumulatif
21-35 28 1 121 35 28 1 136-50 43 4 551-65 58 1 666-80 73 2 881-95 88 7 15
PRINSIP PRINSIP DASAR
PELUANGBagaimana bentuk histogramnya?
PELUANG
Pie ChartPie Chart22
10%
9%
58%23%
10%
58%
Pie chart merupakan grafik yang berbentuk lingkaran yang mana setiap potongannya mewakili proporsi atau persentasesuatu komponen dari sebuah kelompok data (100%).
Pemakaian pie chart hanya cocok ketika menyatakan data d l b t k i d i t k l k d tdalam bentuk proporsi dari satu kelompok data.
Dot PlotDot Plot23
3
3,5
1,5
2
2,5fr
ekue
nsi
0
0,5
1
0 20 40 60 80 100
f
Cara menggambarkan data dalam bentuk titik d h tik f k i d i
0 20 40 60 80 100nilai
titik, dengan memperhatikan frekuensi dari data yang bersangkutanTitik dit k di t il i d t Titik ditumpuk diatas nilai data yang digambarkan.
Histogram Histogram 24
Histogram adalah gambar berdasarkan distribusi frekuensi frekuensi
Setiap frekuensi dipresentasikan oleh suatu segi empat (rectangle).(rectangle).
Daerah setiap rectangle sebanding dengan frekuensinya.
Diagram Batang-Daun(S L f)(Stem-Leaf)
25
26 37 39 46 49 59 69 76 83 83 83 87 87 95 9526 37 39 46 49 59 69 76 83 83 83 87 87 95 95
Stem atau batang, mirip dengan grup data padahistogram, sedangkan leaf atau daun, mirip dengan frekuensi.
Stem atau batang adalah digit pertama yang terpenting yang adadalam bilangan yang membentuk harga data, sedangkan digit dib l k k k l f t dbelakangnya akan merupakan leaf atau daun.
Melalui stem-Leaf masih dapat dilihat nilai data mentahnya.
Diagram Kotak-TitikDiagram Kotak Titik(Box-Plot)26 ( )
85
95
7670
80
90
100 max
q2
q3
47,540
50
60
70
q1
q2 mean
26
10
20
30 min
Box Plot digunakan untuk menyelidiki distribusi tanpa menggunakan grup data seperti pada histogram dan
0
diagram batang daun. Box Plot terdiri dari: datamin , q1 , q2 (median), q3 , dan
data yang disusun secara terurut dengan membentuk datamax yang disusun secara terurut dengan membentuk kotak.
Pencilan pada Box PlotPencilan pada Box Plot27
* pencilan atasBAP (pagar atas)
upper whiskerq3
BAP (pagar atas)
maksimum
q
q2
q3
mean
lower whisker
q1
minimum
** pencilan bawah
BBP (pagar bawah)
Kelemahan dan KeunggulanKelemahan dan Keunggulan28
KELEMAHAN KEUNGGULANKELEMAHAN KEUNGGULAN
DOT PLOT Tidak efektif untuk ukuran data yang besar
Cepat Nilai data asli dapat diperkirakan
HISTOGRAMLamaBanyak perhitunganNilai data tidak nampak
Histogram peluang dapat memberi gambaran tentang distribusi populasiTidak menuntut ketelitian dalam
t t ti il i d tNilai data tidak nampak mencatat setiap nilai data
BATANG Menuntut ketelitian
CepatTidak memerlukan perhitungan
BATANG-DAUN
Menuntut ketelitian mencatat daun Nilai data asli dapat dilihat
Memudahkan perhitungan berbagai parameter
BOX PLOT
Membutuhkan perhitungan yang panjangTerdiri dari parameter-
Box plot dapat memberi gambarantentang bentuk distribusi populasiEfektif untuk membandingkane d da pa a ete
parameter dari data yang sudah diurutkan
e t u tu e ba d g abentuk distribusi beberapa kelompokdata sekaligus
Bentuk Distribusi IdealN lNormal
29
mean = medianmean = median
Memiliki bentuk distribusi yang simetris, yaitu : y g , y
Skewness = 0
Kurtosis = 3, (dalam software tertentu kurtosis normal = 0 Kurtosis 3, (dalam software tertentu kurtosis normal 0
Latihan 1Latihan 130
S t j i li di k d l i t k i Suatu jenis polimer digunakan dalam sistem evakuasipesawat terbang. Penting diperhatikan bahwa polimertersebut harus mampu melawan proses penuaan.Di bil d l h l li k diDiambil dua puluh sampel polimer yang kemudiandibagi atas dua percobaan. Percobaan pertama (batch 1)yang melibatkan 10 sampel dikenakan prosespercepatan penuaan dengan temperatur tinggi selamapercepatan penuaan dengan temperatur tinggi selama10 hari. Sedangkan 10 sampel lainnya (batch 2) tidakdikenakan proses apa-apa. Kekuatan daya rentang(dalam psi) sampel-sampel tersebut diukur dan dicatat(dalam psi) sampel-sampel tersebut diukur dan dicatatsebagai berikut.Batch 1 227 222 218 217 225 218 216 229 228 221Batch 2 219 214 215 211 209 218 203 204 201 205
Q: Apakah percobaan proses penuaan memberikan
Sumber: Walpole (2006), hal.13
Q p p p pdampak pada kekuatan daya rentang polimer?
Latihan 1Latihan 131
- Keluarkan sari numerik yang mungkinUkuran pemusatan data : MEAN MEDIAN KUARTIL BAWAH-ATASUkuran pemusatan data : MEAN, MEDIAN, KUARTIL BAWAHATASUkuran penyebaran data : RANGE, JANGKAUAN KUARTIL,
VARIANSI,SIMPANGAN BAKU
Lain-lain : SKEWNESS dan KURTOSIS
Apakah diperlukan???
Pilih plot yang informatif untuk menjawab pertanyaan tersebutMi l BOXPLOTMisal: BOXPLOT
SARI NUMERIK Batch.1 Batch.IIMean 222 10 209 90SARI NUMERIK
32
Mean 222,10 209,90Variansi 23,6556 42,1000
Simp.Baku 4,86 6,49MiMin. 216 201Max. 229 219Q1 218 204,25
Median 221,5 210Q3 226,5 214,75
226,5229
221,5220
225
230
220
225
230
216218
210
215
220
214,75
219
210210
215
220
Batch 1195
200
205
201204,25
Batch 2195
200
205
@ UMAPA YANG DAPAT DISIMPULKAN??
Latihan 2Latihan 233
Berikut adalah data historis gaji pegawai (dollar per siswa pada 30 sampel sekolah di US bagian timur awal tahun 1970)awal tahun 1970).
3,79 2,99 2,77 2,91 3,10 1,84 2,52 3,22 2,45 2,142 67 2 52 2 71 2 75 3 57 3 85 3 36 2 05 2 89 2 832,67 2,52 2,71 2,75 3,57 3,85 3,36 2,05 2,89 2,8323,13 2,44 2,10 3,71 3,14 3,54 2,37 2,68 3,51 3,37
Q: 1. Keluarkan sari numerik data di atas.2. Hitung variansi dengan 2 cara, bandingkan.g g g3. Buat box plot.4. Ceritakan hasil olahan data Anda.
Sumber: Walpole (2006), hal.29
Dikumpul Senin, 15 Agustus 2011
Transformasi Data (pengayaan)Transformasi Data (pengayaan)34
Transformasi dilakukan untuk mendapatkanbentuk distribusi ang lebih simetrisbentuk distribusi yang lebih simetris.
Transformasi Tangga Tukey-1/x2 -1/x √x log (x) x x2 x3 10x
data awal untuk bentuk distribusi : skewness negatif
untuk bentuk distribusi : skewness positif
M k d d b h k il M k d d b h k il d
Data contoh kasus : skewness = -0,5 (menceng kiri),
Merenggangkan data‐data yang berharga kecildan merapatkan data‐data yang berharga besar
Merapatkan data‐data yang berharga kecil danmerenggangkan data‐data yang berharga besar
, ( g ),maka transformasi yang mungkin adalah x2, x3, dan 10x.
Transformasi Data (pengayaan) C t h KContoh Kasus
35
x y = x2
8737
x
75691369
y xLebih mendekati simetris (skew = 0)
dibanding sebelum transformasi(skew = -0,5)3
594969
369348124014761
(skew 0,5)
69958387
4761902568897569
skew = -0,1887399583
756915219025688983
768326
688957766889676 ** Ketika data ditransformasi maka satuan26
466762116
transformasi
Ketika data ditransformasi, maka satuandari data juga akan berubah
Latihan 3Latihan 336
Mencari, mengumpulkan, mengolah, menganalisis dan menarik kesimpulan atas data Anda sendiri.Sumber data: buku teks, TA, data praktikum, koran, majalah, internet, dll (sebaiknya disesuaikan dengan permasalahan yang mungkin dihadapi di prodi masing masing)mungkin dihadapi di prodi masing‐masing).Ceritakan tentang data tersebut (histori data).
Tugas A diketik (Mic.Word atau Mic.Excel) dikumpul (online) Senin,Tugas A diketik (Mic.Word atau Mic.Excel) dikumpul (online) Senin, 22 Agustus 2011
Contoh Tugas AContoh Tugas A37
Berikut adalah nilai UTS 1 dari 55 mahasiswa MA2181 Analisis Data Tahun 2010.70 5 75 5 68 85 5 84 5 78 5 58 5 82 75 5 84 64 570,5 75,5 68 85,5 84,5 78,5 58,5 82 75,5 84 64,553 69,5 92,5 62 68,5 74,5 59,5 83 79,5 89,5 7953 54 84 66 79 78,5 84 80,5 74,5 74,5 64
74 5 73 75 82 73 67 5 70 68 75 70 5 74 574,5 73 75 82 73 67,5 70 68 75 70,5 74,570,5 62 61,5 81 58,5 43,5 74,5 39 77 87 71
Histori data: Nilai UTS 1 ini diambil dari kelas 02 tahun 2010 yang mahasiswanya adalah
terdiri dari 54 mahasiswa angkatan 2009 dan 1 orang mahasiswa angkatan 2008 prodi Matematika ITBUTS dil k k d h i R b 3 Ok b 20 0 UTS 1 dilaksanakan pada hari Rabu, 13 Oktober 2010.
Pelaksanaan ujian adalah paralel dengan kelas 01. Soal ujian terdiri dari dua bagian, dimana Bagian I terdiri dari 4 soal Pilihan
Ganda dan 2 soal Pilihan Benar Salah dan Bagian II terdiri dari 3 soal ESEI Ganda dan 2 soal Pilihan Benar-Salah, dan Bagian II terdiri dari 3 soal ESEI. Nilai maksimum adalah 100 (Soal UTS 1 dilampirkan).
Sumber: Nilai UTS 1 MA 2181 Analisis Data, Kelas: 02, Pengajar: Utriweni Mukhaiyar
Lampiran Tugas A38
@ UM
Referensi Referensi
Djauhari, M.A., 2001, Catatan Kuliah Analisis Data.
Walpole, Ronald E., et.al, Statistitic for Scientist andWalpole, Ronald E., et.al, Statistitic for Scientist and Engineering, 8th Ed., 2007.
3939