mis-interpretasi nilai p - atma jaya

23
MIS-INTERPRETASI NILAI P Agung Santoso Universitas Sanata Dharma Yogyakarta [email protected] Abstrak Tulisan ini bertujuan untuk memaparkan pemahaman mengenai nilai p yang benar dan sekaligus menunjukkan kesalahan-kesalahan yang seringkali terjadi dalam interpretasi maupun pengambilan kesimpulan penelitian terkait dengan nilai p. Pemahaman tentang nilai p dibutuhkan dalam uji signifikansi hipotesis nul yang mengarahkan pada jawaban terhadap masalah penelitian yang diajukan. Tulisan ini juga memaparkan hasil survey yang dilakukan penulis mengenai kesalahan interpretasi nilai p. Hasil survey menunjukkan masih banyak dosen- peneliti-mahasiswa yang keliru memahami nilai p. Penulis memberikan tiga rekomendasi yang kiranya dapat mengatasi kekeliruan ini dan dapat meningkatkan pemahaman dan mendorong praktek analisis statistik yang benar di Psikologi di Indonesia. Kata kunci: pemahaman nilai p, kesalahan interpretasi, uji signifikansi hipotesis nul Abstract This paper aims to show the common mistakes in interpreting data regarding to p value in many studies. The wrong understanding of p value might lead to error in interpreting hypothesis null significancy test which result on a misleading conclusions. A survey conducted to explore on this issue. The results show that a lot of lecturers, researchers and students made a mistake on understanding p value. Three points of recommendations proposed to enhance the understanding of p value in statistical analysis. Keywords: understanding of p value, statistical interpretation error, hypothesis null significancy test Pendahuluan Seorang pasien merasa sangat khawatir akan kesuksesan operasi yang akan dilaluinya. Ia menjadi semakin khawatir karena dokter yang mengoperasinya masih sangat muda. Untuk menenangkan hati si pasien, seorang perawat berkata,”Pak, memang dokter ini masih sangat muda dan tingkat keberhasilan operasinya hanya 5%. Tapi tenang saja, Pak, ia telah gagal menjalani operasi sembilan belas kali, anda adalah pasien kedua-puluh”. Uji signifikansi hipotesis nul (NHST) merupakan prosedur pengujian hipotesis yang paling terkenal dan karenanya paling sering digunakan dalam penelitian-penelitian di Psikologi. Uji signifikansi hipotesis nul merupakan satu-satunya uji yang diajarkan secara luas di Psikologi dan menjadi prosedur utama dalam memberikan dukungan terhadap teori-teori Psikologi. Prosedur 10

Upload: others

Post on 12-Jun-2022

14 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MIS-INTERPRETASI NILAI P - Atma Jaya

MIS-INTERPRETASI NILAI P

Agung Santoso

Universitas Sanata Dharma Yogyakarta

[email protected]

Abstrak

Tulisan ini bertujuan untuk memaparkan pemahaman mengenai nilai p yang benar dan sekaligusmenunjukkan kesalahan-kesalahan yang seringkali terjadi dalam interpretasi maupunpengambilan kesimpulan penelitian terkait dengan nilai p. Pemahaman tentang nilai pdibutuhkan dalam uji signifikansi hipotesis nul yang mengarahkan pada jawaban terhadapmasalah penelitian yang diajukan. Tulisan ini juga memaparkan hasil survey yang dilakukanpenulis mengenai kesalahan interpretasi nilai p. Hasil survey menunjukkan masih banyak dosen-peneliti-mahasiswa yang keliru memahami nilai p. Penulis memberikan tiga rekomendasi yangkiranya dapat mengatasi kekeliruan ini dan dapat meningkatkan pemahaman dan mendorongpraktek analisis statistik yang benar di Psikologi di Indonesia. Kata kunci: pemahaman nilai p, kesalahan interpretasi, uji signifikansi hipotesis nul

Abstract

This paper aims to show the common mistakes in interpreting data regarding to p value in many studies. The wrong understanding of p value might lead to error in interpreting hypothesis null significancy test which result on a misleading conclusions. A survey conducted to explore on thisissue. The results show that a lot of lecturers, researchers and students made a mistake on understanding p value. Three points of recommendations proposed to enhance the understanding of p value in statistical analysis.

Keywords: understanding of p value, statistical interpretation error, hypothesis null significancytest

Pendahuluan

Seorang pasien merasa sangat khawatir akan kesuksesan operasi yang akan dilaluinya. Iamenjadi semakin khawatir karena dokter yang mengoperasinya masih sangat muda. Untukmenenangkan hati si pasien, seorang perawat berkata,”Pak, memang dokter ini masih sangatmuda dan tingkat keberhasilan operasinya hanya 5%. Tapi tenang saja, Pak, ia telah gagalmenjalani operasi sembilan belas kali, anda adalah pasien kedua-puluh”.

Uji signifikansi hipotesis nul (NHST) merupakan prosedur pengujian hipotesis yang paling

terkenal dan karenanya paling sering digunakan dalam penelitian-penelitian di Psikologi. Uji

signifikansi hipotesis nul merupakan satu-satunya uji yang diajarkan secara luas di Psikologi dan

menjadi prosedur utama dalam memberikan dukungan terhadap teori-teori Psikologi. Prosedur

10

Page 2: MIS-INTERPRETASI NILAI P - Atma Jaya

ini seakan menjadi bagian yang tak terlepaskan dari keilmuan di Psikologi meskipun memiliki

banyak kelemahan (Bakan, 1966).

Banyak kritik diberikan pada prosedur NHST ini sejak 50 tahun yang lalu (Greenwald,

Gonzales, Haris, & Guthrie, 1996),termasuk di dalamnya, beberapa tulisan yang diterbitkan di

Indonesia kira-kira sepuluh tahun yang lalu (Hastjarjo, 2000; Sugiyanto, 2000; Sukadji, 2001;

Suryabrata, 2000; Swediati & Bastari, 2000). Kritik-kritik ini dapat diklasifikasikan menjadi dua

kelompok: (1).Kritik yang mempertanyakan keabsahan prosedur NHST baik dari sisi

kemampuannya menjawab pertanyaan penelitian (Bakan, 1966; Cohen, 1994; Kline, 2004;

Meehl, 1967; 1978) maupun keraguan akan pengujian hipotesis itu sendiri secara umum

(Cumming, 2013), dan (2). Kritik terhadap interpretasi dari nilai p yang tidak tepat sehingga

mengarahkan peneliti pada kesimpulan yang tidak tepat mengenai hasil penelitian dan tindakan

yang mengikutinya.

Ada beberapa pembelaan yang diberikan terkait dengan kritik terhadap NHST sebagai

metode. Pembelaan-pembelaan ini pada dasarnya menunjukkan bahwa pertanyaan-pertanyaan

penelitian seringkali sangat beragam dan tidak dapat sepenuhnya dijawab dengan hanya

menggunakan satu prosedur saja (Christensen, 2005; Maxwell & Delaney, 2004). Kritik terhadap

keabsahan NHST seringkali ditunjukkan dengan ketidakmampuan NHST dalam menjawab

pertanyaan yang memang tidak didesain untuk dijawab oleh NHST (Hagen, 1997). Kritik yang

menyerang pengujian hipotesis secara umum juga dibantah oleh Morey, dkk.(2014) yang

menekankan pentingnya pengujian hipotesis sebagai alat pengambil keputusan untuk memilih

teori yang ‘benar’ di antara banyak teori-teori alternatif.

Kritik yang kedua merupakan permasalahan yang diakui bersama oleh pihak yang pro

maupun kontra terhadap NHST. Kline (2004) mendaftar sekitar 13 kesalahan interpretasi nilai p

yang sering terjadi dalam literatur baik artikel jurnal maupun buku-buku teks statistik.

Permasalahan ini juga terjadi di Indonesia, terbukti dari pengalaman penulis selama ini dan

survey kecil yang dilakukan penulis. Misalnya pada item yang menggambarkan salah satu

kesalahan interpretasi nilai p yang berbunyi:” Jika analisis memberikan hasil yang signifikan

(p<0.05), ini berarti ada perbedaan yang besar antar kelompok atau korelasi yang besar antar

variabel”, 70.7% (n=41) responden memberi respon “Benar” sementara 22.4%( n=13) memberi

respon “Salah” dan 6.9% (n=4) “Tidak tahu”. Lebih lanjut, dari 4 responden yang secara rutin

mengajar statistik / pengukuran 75% memberi respon “Benar” sementara hanya satu responden

11

Page 3: MIS-INTERPRETASI NILAI P - Atma Jaya

memberi respon “Salah”. Banyaknya respon yang keliru ini menunjukkan bahwa kesalahan

interpretasi nilai p ini banyak dianut oleh dosen-peneliti-mahasiswa termasuk para pengajar

statistiknya. Hasil survey tersebut tentu saja tidak dapat digeneralisasikan secara meyakinkan,

mengingat hanya sedikit sekali subjek yang terlibat di dalamnya. Namun demikian, hasil ini dan

pengalaman penulis selama ini berdiskusi dengan mahasiswa-dosen-peneliti, kiranya cukup

untuk menyalakan lampu peringatan untuk menangani masalah ini dengan lebih serius

Permasalahan ini dalam pandangan penulis, merupakan permasalahan terbesar baik

dalam praktek penelitian maupun dalam pengajaran statistik, yang jika dapat diatasi, akan dapat

mengurangi banyaknya kelemahan NHST dalam pengembangan ilmu psikologi. Oleh karena itu

artikel ini ditulis sebagai usaha untuk memperbaiki pemahaman dosen-peneliti-mahasiswa di

psikologi khususnya di Indonesia mengenai nilai p khususnya dan NHST pada umumnya.

Peneliti berharap dapat menunjukkan interpretasi nilai p yang benar, sekaligus menunjukkan

kemungkinan-kemungkinan kesalahan interpretasinya sehingga permasalahan interpretasi nilai p

ini dapat dihindari di kemudian hari baik dalam publikasi penelitian maupun dalam pendidikan

statistik dan metode penelitian.

Makna Nilai p

Nilai p atau yang juga disebut dengan associated probability (Oakes,1986) terkait erat

dengan gagasan inferensi dari dua paradigma statistik inferensial yang dicetuskan oleh Fisher

dan Neyman-Pearson. Kedua paradigma ini memiliki beberapa perbedaan, namun demikian

gagasan dari kedua paradigma ini seringkali dicampur, terkadang dengan agak sembrono, dalam

praktek analisis data. Oleh karena itu perlu kiranya memahami tiap pendekatan ini dengan lebih

baik dan memahami perbedaan dan persamaan keduanya serta bagaimana mekanisme

‘pencampuran’ kedua paradigma ini. Artikel ini hanya akan membahas secara ringkas kedua

paradigma dan percampuran keduanya. Pembahasan lebih dalam dapat dibaca dalam buku-buku

yang ditulis oleh Oakes (1986), Maxwell & Delaney (2004), dll.

Paradigma Fisher merupakan paradigma statistik inferensial yang menekankan pada

pengujian dari satu hipotesis saja: hipotesis nul (Lehmann, 1993; Oakes, 1986). Fisher tidak

mengenal adanya hipotesis alternatif, sehingga yang senantiasa diuji oleh Fisher adalah hipotesis

nul. Oleh karena itu tugas statistik inferensial menurut pandangan ini adalah menguji apakah

suatu hipotesis atau model teoretik tertentu itu didukung oleh data atau tidak, berdasarkan data

12

Page 4: MIS-INTERPRETASI NILAI P - Atma Jaya

yang diambil dalam penelitian. Keputusan yang diambil dalam pengujian hipotesis ini hanyalah

hipotesis nul ditolak atau gagal ditolak. Dalam pandangan ini, kita bahkan tidak bisa mengambil

keputusan untuk menerima hipotesis nul. Menerima hipotesis nul ketika tidak ada bukti yang

menolaknya merupakan kesalahan berpikir logis yang disebut pembenaran karena konsekuensi

(affirming by the consequence). Kegagalan menolak hipotesis nul dapat diakibatkan oleh banyak

faktor selain ‘kebenaran hipotesis nul’, seperti ketidakakuratan pengukuran, sampel yang terlalu

kecil, dll.

Hipotesis nul dalam pandangan Fisher tidak harus memiliki parameter sama dengan nol

atau nihil (Bakan, 1966). Misalnya ketika seorang peneliti hendak menguji apakah perbedaan

skor IQ antara dua kelompok lebih besar dari 10 poin, maka ia sedang menguji hipotesis nol

dengan parameter sebesar 10, tidak lagi nol. Penelitian-penelitian di area Psikologi seringkali

tidak dapat mencapai taraf ketelitian seakurat ini sehingga jarang sekali penelitian di psikologi

menggunakan hipotesis nul yang seperti ini (Meehl, 1967;1978).

Jerzy Neyman dan Egon Pearson mengembangkan prosedur pengujian hipotesis dari

Fisher ini dengan memperluas ide tentang pengujian hipotesis. Menurut Neyman-Pearson, adalah

memungkinkan untuk memilih satu dari dua (atau beberapa) hipotesis alternatif dengan

membandingkan rasio probabilitas kemunculan data seperti yang diperoleh dari penelitian jika

populasi memiliki parameter seperti yang disebutkan oleh hipotesis-hipotesis alternatif ini.

Misalnya peneliti mengajukan dua hipotesis: satu hipotesis menyatakan bahwa parameter di

populasi adalah sama dengan nol sementara hipotesis yang lain menyatakan bahwa parameter di

populasi adalah sama dengan 5. Kemudian peneliti mengambil data dan menghitung probabilitas

munculnya data tersebut dalam populasi jika hipotesis pertama benar dan jika hipotesis kedua

benar. Tabel 1 menggambarkan ilustrasi data dari contoh ini:

Tabel 1. Ilustrasi nilai p dari data jika kedua hipotesis benar

H1Parameter = 0

H2Parameter = 5

Rasio H1:H2

Nilai p dari data

0.05 0.45 1:9

13

Page 5: MIS-INTERPRETASI NILAI P - Atma Jaya

Berdasarkan data tersebut dapat disimpulkan bahwa data yang diperoleh dalam penelitian, 9 kali

lebih memungkinkan untuk muncul dalam populasi dengan parameter = 5 dibandingkan dari

populasi dengan parameter = 0. Oleh karena itu, disimpulkan bahwa hipotesis kedua diterima.

Perbedaan lain antara pandangan Fisher dan Neyman-Pearson adalah pendekatan untuk

‘menerima’ hipotesis. Dalam pandangan Fisher, tidak mungkin seorang peneliti menerima

sebuah hipotesis. Yang mungkin dilakukan peneliti hanyalah menolak atau gagal menolak.

Ketika hipotesis gagal ditolak, maka hipotesis itu memungkinkan (plausible) dalam dunia nyata

tapi belum tentu benar. Sementara dalam pandangan Neyman-Pearson, peneliti dapat menerima

hipotesis dengan berdasar pada rasio probabilitas. Jika rasio memihak pada salah satu hipotesis,

maka peneliti dapat menerima hipotesis tersebut dan menolak hipotesis yang lain.

Perbedaan pandangan antara Fisher dan Neyman-Pearson, selain adanya hipotesis

alternatif, terletak pada kemungkinan untuk menarik kesimpulan mengenai kondisi populasi

berdasarkan inferensi ini. Dengan kata lain, dapatkah kita mengatakan bahwa probabilitas

‘kebenaran’ dari suatu hipotesis berdasarkan data yang kita peroleh dari sampel adalah sebesar

p? Fisher menganggap nilai p tidak memberikan informasi apa pun untuk memperoleh jawaban

terhadap pertanyaan tersebut (Lehmann, 1993). Informasi yang kita peroleh melalu prosedur ini

adalah probabilitas munculnya data seperti yang kita peroleh dari penelitian kita dalam populasi

dengan parameter sebesar yang dinyatakan oleh hipotesis atau diekspresikan sebagai berikut:

(1)

Dalam hal ini, p adalah nilai p yang kita peroleh sebagai hasil analisis, D adalah data yang kita

peroleh dari penelitian, dan H adalah hipotesis yang diajukan. Dengan kata lain, p menunjukkan

besarnya probabilitas kita memperoleh D seperti yang diperoleh dari penelitian jika H benar.

Sementara Neyman-Pearson menganggap bahwa meskipun nilai p tidak menunjukkan

secara akurat besarnya probabilitas kebenaran dari suatu hipotesis, tapi kita dapat mengambil

kesimpulan bahwa kondisi di populasi adalah seperti hipotesis yang diterima dan tidak seperti

hipotesis ditolak jika p sangat kecil, yang disebutnya sebagai inductive behavior (Lehmann,

1993; Hagen, 1997). Beberapa penulis seperti Bakan (1966) dan Cohen (1994) percaya bahwa

jawaban terhadap pertanyaan tersebut hanya dapat disediakan oleh pendekatan Bayesian,

14

Page 6: MIS-INTERPRETASI NILAI P - Atma Jaya

meskipun hal ini ditolak oleh Fisher maupun Neyman-Pearson karena cara pandang yang

berbeda tentang probabilitas dan subjektivitas pendekatan ini (Lehmann, 1993; Hagen, 1997).

Dalam prakteknya, penelitian-penelitian di psikologi tidak dapat mengacu sepenuhnya

pada salah satu pendekatan tersebut khususnya karena kesulitan dalam menentukan besarnya

parameter di populasi sebagai hipotesis (Meehl, 1978). Kesulitan dalam menentukan parameter

ini membuat penelitian di psikologi, dan banyak area lainnya, berusaha menggabungkan dua

pemikiran ini dalam satu praktek statistik inferensial. Penggabungan ini tampak dalam beberapa

konsep inferensi statistik yang dipegang saat ini seperti adanya Hipotesis Nul (H0) dan Hipotesis

Alternatif (Ha) yang menggunakan ide dari Neyman-Pearson, namun demikian pengujian

hipotesis secara langsung hanya diberlakukan pada H0 saja dengan menggunakan ide dari Fisher.

Inferensi statistik saat ini juga mengenal adanya kesalahan tipe I (type I error atau α) dan

kesalahan tipe II (type II error atau b) dan Power (1- b ) yang juga berasal dari ide Neyman-

Pearson mengenai inferensi statistik. Dalam pendekatan gabungan ini, besarnya parameter dalam

H0 biasanya dipilih sama dengan nol, karena nilai ini adalah nilai yang paling mudah ditentukan

tanpa mengetahui parameter di populasi dari penelitian sebelumnya. Hipotesis Alternatif juga

dirumuskan dengan tidak secara khusus menyatakan besarnya parameter di populasi, sehingga

tidak secara khusus dapat diuji. Hipotesis Alternatif dirumuskan sebagai negasi dari Hipotesis

Nul. Jika H0 berbunyi,”Tidak ada perbedaan mean antar kelompok” atau “Perbedaan mean antar

kelompok sama dengan nol” maka Ha berbunyi “Ada perbedaan mean antar kelompok”. Jika H0

berbunyi, “Perbedaan mean antara kelompok A dan B sama dengan 5”, maka Ha

berbunyi,”Perbedaan mean antara kelompok A dan B bukan 5”.

Berdasarkan paparan di atas, ada beberapa penafsiran mengenai nilai p yang dianggap

akurat. Kline (2004), Cohen (1994) dan Oakes (1986) misalnya memberikan beberapa makna

nilai p yang benar, yang secara garis besar mengandung komponen pengertian seperti berikut:

1. Nilai p merupakan probabilitas dari data penelitian jika H0 benar. Pemahaman mengenai

jika H0 benar ini penting karena mesin inferensi yang kita gunakan, dijalankan dengan

berdasar pada distribusi dari D jika H0 benar. Dengan analogi mencari bola billiard dalam

sebuah kotak, maka nilai p adalah besarnya probabilitas kita memperoleh bola billiard

dengan nilai sebesar D atau lebih ekstrim dalam kotak H0. Probabilitas ini akan berubah atau

berbeda jika kita mencari bola dengan nilai sebesar D ini dalam kotak yang berbeda. Oleh

15

Page 7: MIS-INTERPRETASI NILAI P - Atma Jaya

karena itu, pemaknaan nilai p tidak pernah bisa dilepaskan dari tempat penghitungan

probabilitas ini, yaitu populasi dengan parameter seperti yang disebutkan dalam H0.

2. Nilai p ini menggambarkan proporsi dari banyaknya sampel dengan nilai D atau lebih

ekstrim dibanding keseluruhan sampel yang diambil, hanya jika kita mengambil sampel

berkali-kali dalam jumlah sangat banyak, bahkan sampai tidak terhingga. Oleh karena itu

keabsahan hipotesis tidak dapat ditegakkan hanya berdasarkan satu penelitian saja. Replikasi

menjadi hal yang penting dalam praktik inferensi statistik seperti ini (Pashler & Harris,

2012).

3. Arah inferensi bersifat top-down bukan bottom-up. Meskipun ketertarikan kita adalah

inferensi mengenai kondisi di populasi jika data di sampel memiliki nilai sebesar D, nilai p

bukanlah nilai yang menggambarkan probabilitas ini. Nilai p merupakan gambaran

mengenai probabilitas munculnya suatu sampel dalam populasi dengan parameter seperti

yang dinyatakan oleh H0: ”Jika hipotesis nul benar, maka probabilitas memperoleh sampel

dengan nilai sebesar D atau lebih ekstrim adalah sebesar p”. Nilai p tidak dapat

diinterpretasi sebagai besarnya probabilitas hipotesis nul benar berdasarkan data penelitian.

Oleh karena itu, nilai (1 – p) juga tidak dapat dimaknai sebagai besarnya probabilitas

hipotesis nul salah berdasarkan data penelitian.

4. Nilai dari parameter di populasi asal sampel penelitian kita, tidak diketahui. Kita hanya

dapat mengetahui bahwa nilai parameter tersebut di populasi tidak sama dengan parameter

yang dinyatakan oleh H0. Jika H0 berbunyi,”parameter di populasi sama dengan nol”, dan

jika p<0.05, maka kita hanya dapat mengatakan,”Kecil kemungkinan sampel penelitian kita

berasal dari populasi dengan parameter sama dengan nol”. Oleh karena itu interpretasi nilai

(1 – p) sebagai probabilitas memperoleh nilai di populasi sebesar nilai di sampel adalah

keliru.

Dalam subbab berikut, penulis akan memaparkan kesalahan-kesalahan interpretasi nilai p dan

kesalahan kesimpulan yang diambil berdasarkan nilai p yang sering terjadi disertai alasan

mengapa interpretasi ini keliru.

Interpretasi dan Kesimpulan Terkait Nilai p yang Keliru

Kesalahan-kesalahan interpretasi dan kesimpulan ini didasarkan pada beberapa artikel dari para

ahli (Cohen, 1994; Greenwald dkk.,1996; Kline, 2004; Maxwell & Delaney, 2004; Meehl, 1967;

1978; Oakes, 1986; Pashler & Harris, 2012). Penulis menyusunnya mengikuti urutan dalam

16

Page 8: MIS-INTERPRETASI NILAI P - Atma Jaya

tulisan Kline (2004) yang dianggap baik dalam membahas kekeliruan interpretasi nilai p ini.

Penjelasan mengenai kekeliruan ini dibagi menjadi dua bagian yaitu bagian kesalahan

interpretasi dan kesimpulan yang keliru berdasarkan pengujian H0.

Kesalahan interpretasi

1. Nilai p menggambarkan probabilitas hasil dari penelitian merupakan akibat dari kesalahan

sampling (sampling error), sehingga penolakan H0 (p≤0.05) berarti hasil penelitian

menggambarkan efek yang nyata bukan karena kesalahan sampling. Ada dua bagian dari

interpretasi ini yang perlu dicermati. Pertama adalah pernyataan ‘efek yang nyata’. Jika yang

dimaksud dari efek yang nyata adalah bahwa efek ini tidak sama dengan nol, bagian

interpretasi ini masih dapat diterima. Namun demikian jika yang dimaksud ‘nyata’ adalah

besar, maka interpretasi ini keliru. ‘Nyata’ di sini juga tidak dapat diartikan sebagai efek

yang sebenarnya di populasi. Hal ini dibahas lebih lanjut dalam poin no 6.

Bagian kedua dari interpretasi ini, ‘bukan karena kesalahan sampling’, merupakan

interpretasi yang keliru karena hasil yang kita peroleh dari sampel selalu merupakan akibat

dari kesalahan sampling. Oleh karena itu probabilitas hasil yang kita peroleh diakibatkan

oleh kesalahan sampling selalu 1.0. Uji signifikansi dilakukan justru karena kesalahan

sampling ini selalu terjadi. Tanpa adanya kesalahan sampling, tidak akan terjadi deviasi

estimasi di sampel dari nilai parameter di populasi, yang mengakibatkan tidak adanya

standard deviasi atau standard error dan pada akhirnya mengakibatkan tidak dapat

dihitungnya nilai p. Kline (2004) menyebut kesalahan interpretasi ini sebagai odds-against-

chance fantasy (fantasi mengenai kemungkinan memperoleh hasil bukan karena faktor

kebetulan).

2. Nilai p menggambarkan probabilitas H0 benar berdasarkan data penelitian yang diperoleh,

sehingga nilai p yang kecil menggambarkan probabilitas H0 benar juga kecil. Interpretasi ini

keliru karena nilai p menggambarkan probabilitas data penelitian kita berasal dari populasi

dengan H0 ( ) bukan sebaliknya ( ). Hubungan antara

nilai p dan dapat ditunjukkan dengan formula dari Bayes:

(2)

17

Page 9: MIS-INTERPRETASI NILAI P - Atma Jaya

Untuk mengetahui besarnya , kita membutuhkan informasi tambahan

yang seringkali tidak kita miliki dalam penelitian. Sebagai ilustrasi kita dapat melihat

Gambar 1 dan 2. Kita dapat lihat dalam Gambar 1 bahwa ketika Power = 0.8, maka semakin

besar , semakin besar pula kesenjangan antara dengan

Misalnya ketika , maka besarnya

jika kita memperoleh nilai p=0.05. Kesenjangan antara antara

dengan juga akan semakin besar ketika Power dari

analisis semakin kecil. Hal ini dapat dilihat dalam Gambar 2, dengan catatan bahwa

dibuat sama dengan 0.5 untuk semua garis. Dalam gambar tersebut dapat

kita lihat bahwa hanya ketika Power=0.9, kesenjangan antara dengan

sangat kecil.

Gambar 1: Besarnya , dengan mengendalikan Power=0.8

18

Page 10: MIS-INTERPRETASI NILAI P - Atma Jaya

Gambar 2: Besarnya , dengan mengendalikan

Namun demikian, dapat kita amati pula bahwa hubungan antara dengan

bersifat monotonik: semakin kecil nilai atau nilai p,

semakin kecil pula . Oleh karena itu, kita tetap boleh menyimpulkan

bahwa makin kecil nilai p, kita semakin yakin bahwa H0 keliru. Kekeliruan dapat dihindari

sejauh kita tidak menyatakan besarnya kemungkinan ini adalah sebesar nilai p.

3. Nilai p menggambarkan besarnya kemungkinan kita mengambil keputusan yang keliru

ketika kita menolak hipotesis nol. Interpretasi ini merupakan salah satu contoh dari

kekeliruan interpretasi pada no 2. di atas khususnya terkait dengan interpretasi kesalahan

tipe I. Kesalahan tipe I atau α merupakan probabilitas kita menolak hipotesis nol jika

hipotesis nol benar yang merupakan conditional prior probability atau diekspresikan sebagai

. Sementara interpretasi yang disebutkan sebelumnya

merupakan probabilitas H0 benar ketika kita mengambil keputusan menolak H0 atau

yang disebut juga sebagai conditional posterior probability.

4. Nilai (1 – p) adalah probabilitas Ha benar berdasarkan data penelitian yang diperoleh. Oleh

karena itu jika nilai p lebih kecil dari 0.05, maka probabilitas Ha benar lebih besar dari 95%.

Interpretasi ini keliru karena nilai (1 – p) hanya menggambarkan besarnya probabilitas

memperoleh nilai yang kurang ekstrim dibandingkan nilai yang kita peroleh dari sampel,

19

Page 11: MIS-INTERPRETASI NILAI P - Atma Jaya

dalam sebuah populasi dengan parameter seperti yang dinyatakan oleh H0. Hal ini

diilustrasikan dalam Gambar 3 di bawah ini.

Gambar 3: Ilustrasi interpretasi (1 - p)

Dalam gambar tersebut, (1 – p) menggambarkan besarnya probabilitas dari nilai yang lebih

tidak ekstrim dari A.

5. Nilai (1 – p) menggambarkan besarnya probabilitas hasil yang kita temukan dapat dihasilkan

kembali dalam penelitian replikasi. Oleh karena itu jika nilai p < 0.05, maka probabilitas

hasil penelitian replikasi juga akan memberikan hasil nilai p < 0.05 adalah 95%. Interpretasi

ini keliru karena acuan yang seharusnya digunakan untuk menghasilkan interpretasi itu

adalah atau probabilitas menolak hipotesis nol pada

penelitian kedua ketika kita menolak hipotesis nol pada penelitian pertama, sementara nilai

1 – p merupakan gambaran mengenai probabilitas memperoleh nilai yang kurang ekstrim

dalam populasi dengan parameter sebesar yang disebutkan H0. Dalam situasi tertentu

khususnya ketika p = 0.05, besarnya hanyalah sebesar

50% bukan 95%.

Gambar 4 memberikan ilustrasi mengenai besarnya probabilitas menolak hipotesis nol

pada penelitian kedua (replikasi), jika pada penelitian pertama kita menolak hipotesis nol.

Gambar 4 dihasilkan dari hasil simulasi uji perbedaan mean menggunakan uji t. Kondisi di

20

Page 12: MIS-INTERPRETASI NILAI P - Atma Jaya

populasi ditentukan memiliki Cohen’s d sebesar 0, 0.2, 0.4, dan 0.8. Cohen’s d sebesar 0

merupakan kondisi ketika hipotesis nol benar (tidak ada perbedaan mean di populasi).

Penulis menggunakan beberapa ukuran sampel dari 50 hingga 300 dengan interval 10 (50,

60, 70, … , 300). Dalam semua analisis, peneliti menggunakan acuan α (tipe error 1) = 0.05.

Oleh karena itu hipotesis nol akan ditolak jika p<0.05.

Dari gambar tersebut, dapat kita lihat bahwa besarnya probabilitas menolak hipotesis

nol pada penelitian replikasi merupakan fungsi dari effect size (dalam simulasi digunakan

Cohen’s d) dan besarnya sampel. Ketika d=0, atau dengan kata lain hipotesis nul benar di

populasi, maka probabilitas menghasilkan penelitian replikasi yang menolak hipotesis nul

untuk semua ukuran sampel hanya sekitar 0.05 (5%), sama dengan besarnya α yang kita

tetapkan, dan bukan sebesar (1 – p) atau sebesar 95%. Effect size yang makin besar membuat

juga menjadi lebih besar. Besanya

mendekati angka 95% hanya ketika d=0.4 dengan

ukuran sampel ± 170. Sementara itu, ketika d=0.8 (effect size besar),

mendekati 1.0 untuk semua ukuran sampel. Oleh

karena itu nilai (1 – p) tidak secara otomatis menggambarkan besarnya

.

Gambar 4: Plot dari sebagai hasil simulasi uji perbedaan

mean dengan Cohen’s d sebesar 0, 0.2, 0.4, dan 0.8. Garis titik-titik di bagian atas grafik

21

Page 13: MIS-INTERPRETASI NILAI P - Atma Jaya

mewakili = 95%, sementara di bagian bawah mewakili

= 5%.

Kesimpulan yang keliru berdasarkan hasil pengujian H01.

6. Nilai p menggambarkan besarnya korelasi, perbedaan mean, atau efek: semakin kecil p

semakin besar korelasi, perbedaan mean, atau efek dari suatu penelitian. Misalnya ketika p <

0.05, interpretasi yang sering diberikan adalah adanya korelasi yang besar atau perbedaan

mean yang besar. Interpretasi ini keliru karena efek yang kecil sekalipun dapat menjadi

signifikan ketika jumlah subjek dalam penelitian sangat besar. Misalnya, untuk memperoleh

hasil yang signifikan dengan jumlah subjek 1000 orang hanya dibutuhkan r = 0.062,

sementara angka tersebut tergolong sangat kecil. Sementara itu dengan jumlah subjek hanya

10, nilai koefisien korelasi sebesar 0.5, tetap menunjukkan hasil yang tidak signifikan,

meskipun nilai korelasi sebesar itu tergolong besar.

7. Penolakan hipotesis nul menunjukkan bahwa hipotesis alternatif benar dan teori yang

melatarbelakangi hipotesis alternatif benar. Kesimpulan bahwa hipotesis alternatif benar

tidak sepenuhnya tepat karena kebenaran hipotesis alternatif tidak dapat ditegakkan hanya

melalui satu studi saja. Kebenaran hipotesis alternatif hanya dapat ditegakkan secara

meyakinkan melalui beberapa penelitian replikasi. Jika cukup banyak penelitian replikasi

menunjukkan penolakan hipotesis nul, maka keyakinan akan kebenaran hipotesis alternatif

makin besar.

Penolakan hipotesis nul juga tidak dapat menjadi bukti meyakinkan terhadap

kebenaran teori yang melatarbelakangi hipotesis alternatif. Hal ini disebabkan teori-teori

yang berbeda dapat menghasilkan hipotesis alternatif yang sama: bahwa hasil analisis akan

memberikan adanya perbedaan mean atau korelasi dengan arah tertentu. Keyakinan akan

kebenaran teoretis hanya dapat ditegakkan melalui argumen logis penulis yang didasarkan

bukan semata-mata pada hasil analisis tapi juga pada bangunan teoretik dan penelitian

sebelumnya.

8. Kegagalan menolak hipotesis nul berarti parameter di populasi sama dengan nol.

Kesimpulan ini keliru karena kegagalan menolak hipotesis nul dapat diakibatkan oleh

banyak faktor seperti besarnya sampel, reliabilitas pengukuran, desain penelitian yang

1 Nomor dilanjutkan dari daftar sebelumnya untuk memudahkan membaca tabel 2.

22

Page 14: MIS-INTERPRETASI NILAI P - Atma Jaya

buruk, atau power dari analisis yang dilakukan lemah. Tukey (dalam Kline, 2004)

mengatakan,”The absence of evidence is not equal with the evidence of absence”.

(Ketiadaan bukti tidak sama dengan bukti akan ketiadaan).

Oleh karena itu, dalam studi yang membandingkan dua intervensi, ketika hipotesis nul

gagal ditolak, kita tidak dapat mengatakan bahwa kedua intervensi tersebut memberikan

efek intervensi yang sama. Kita hanya dapat menyatakan bahwa hasil penelitian tidak dapat

disimpulkan (inconclusive).

9. Penolakan hipotesis nul merupakan bukti kualitas dari desain penelitian yang dilakukan,

sehingga seringkali pengecekan desain penelitian tidak dilakukan lagi. Kesimpulan ini keliru

karena kualitas desain penelitian yang buruk pun dapat menciptakan efek semu yang

memberikan hasil yang signifikan.

10. Kegagalan menolak hipotesis nul menandakan kegagalan penelitian. Kesimpulan ini tidak

sepenuhnya benar karena kegagalan menolak hipotesis nul juga dapat terjadi dalam praktek

penelitian yang baik ketika kondisi parameter di populasi memang seperti yang dinyatakan

dalam hipotesis nul. Jika banyak penelitian replikasi menunjukkan kegagalan menolak

hipotesis nul, maka besar kemungkinan efek yang diteliti memang mendekati nilai yang

dirumuskan dalam hipotesis nul.

11. Penolakan hipotesis nul berarti kita telah menemukan bukti adanya hubungan sebab-akibat

jika hipotesis alternatif menyatakan demikian. Kesimpulan ini keliru karena alasan yang

sama dengan yang telah dibahas dalam poin no 7. Bahkan dalam studi eksperimental

sekalipun, penolakan hipotesis nul tidak secara meyakinkan dapat menegakkan hubungan

sebab-akibat jika didasarkan hanya pada penelitian tunggal.

12. Penelitian replikasi yang tidak memberikan signifikansi yang sama dengan penelitian

sebelumnya, merupakan bukti kegagalan replikasi penelitian. Kesimpulan ini keliru karena

signifikansi hasil dipengaruhi oleh banyak faktor seperti power dari analisis, besarnya

sampel, dll.

Berdasarkan paparan di atas dapat disimpulkan adanya cukup banyak kesalahan

interpretasi maupun kesimpulan yang diambil berdasarkan penolakan H0. Penulis meyakini

bahwa kesalahan-kesalahan yang mungkin terjadi tidak terbatas pada dua belas kesalahan yang

terdaftar di atas. Oleh karena itu perlu kiranya bagi pengajar statistik dan peneliti untuk juga

23

Page 15: MIS-INTERPRETASI NILAI P - Atma Jaya

memahami makna nilai p yang sebenarnya agar terhindar dari bentuk-bentuk kesalahan yang

lain.

Subbab berikut akan berisi hasil survey kecil yang dilakukan penulis terkait dengan

kesalahan-kesalahan interpretasi dan kesimpulan ini meskipun tidak semua kesalahan interpretasi

di atas terwakili dalam item survey. Kiranya hasil survey kecil ini dapat dianggap sebagai

gambaran kasar mengenai seberapa banyak kesalahan ini terjadi di kalangan mahasiswa-peneliti-

dosen di psikologi di Indonesia.

Hasil Survey yang Dilakukan Peneliti

Survey ini terdiri dari 20 item pernyataan terkait dengan kesalahan interpretasi dan

kesimpulan dari nilai p, tiga item terkait dengan besarnya sampel, dan 34 item terkait dengan

penilaian yang diyakini dan praktek yang dijalankan mengenai prosedur penelitian. Penulis

hanya akan membatasi paparan hasil survey ini pada 20 item terkait dengan kesalahan

interpretasi dan kesimpulan dari nilai p saja. Hasil dari dua bagian lain akan dipaparkan dalam

artikel terpisah.

Hasil survey per-item dapat dicermati dalam tabel 2 sebagai berikut:

24

Page 16: MIS-INTERPRETASI NILAI P - Atma Jaya

Tabel 2. Hasil survey interpretasi dan kesimpulan keliru mengenai nilai p dengan N=58, N pengajar statistik = 4

No. Item (Kunci) Respon Umum(%)

Respon PengajarStatistik (%)

PoinTerkait

B S T B S T

1. Jika hasil analisis menunjukkan p < (LEBIH KECIL) 0.05, ini berarti hipotesisalternatif saya benar (Salah)

74.1 20.7 5.2 100 0 0 7

2 Jika analisis memberikan hasil yang signifikan (p<0.05), ini berarti adaperbedaan yang besar antar kelompok atau korelasi yang besar antar variabel

70.7 22.4 6.9 75 25 0 6

3 Jika p < (LEBIH KECIL) 0.05, ini berarti teori yang mendasari hipotesisalternatif saya benar (Salah)

63.8 24.1 12.1 50 50 0 7

4 Jika analisis memberikan hasil yang sangat signifikan (p<0.001), ini berarti adaperbedaan yang sangat besar antar kelompok atau korelasi yang sangat besarantar variabel (Salah)

53.4 39.7 6.9 75 25 0 6

5 Jika analisis memberikan angka korelasi r=0.4, dengan p=0.05, ini berarti ada95% kemungkinan korelasi yang sama akan didapatkan dari penelitian replikasi

46.6 32.8 20.7 75 25 0 5

6 Jika analisis memberikan angka korelasi r=0.4 dengan p=0.05, ini berarti ada95% kemungkinan kita akan memperoleh r=0.4 dalam populasi (Salah)

58.6 20.7 20.7 75 25 0 4

7 Jika p = (SAMA DENGAN) 0.05 ini berarti ada kemungkinan sebesar 95%hipotesis null salah (Salah)

41.4 36.2 22.4 50 50 0 2,4

8 Nilai p menggambarkan besarnya probabilitas penelitian yang dilakukan, kelirudalam mengambil keputusan (misalnya menolak hipotesis nul) (Salah)

63.8 12.1 24.1 100 0 0 3

9 Nilai p menggambarkan besarnya probabilitas hipotesis alternatif saya salah(Salah)

44.8 36.2 19.0 75 25 0 2

10 Jika p > (LEBIH BESAR) 0.05, kita menerima hipotesis nul (Salah) 69.0 22.4 8.6 100 0 0 811 Replikasi langsung (replikasi penelitian sama persis seperti penelitian

sebelumnya) merupakan praktek penelitian yang baik (Benar)31.0 53.4 15.5 50 50 0 2,4,7

12 Signifikansi statistik merupakan hasil pengujian hipotesis alternatif (Salah) 58.6 31.0 10.3 50 50 0 13 Jika p > (LEBIH BESAR) 0.05 , ini berarti hipotesis nul benar (Salah) 60.3 29.3 10.3 100 0 0 214 Hasil analisis yang TIDAK signifikan menunjukkan adanya masalah dalam

desain penelitian (Salah)25.9 69.0 5.2 0 100 0 10

15 Hasil analisis yang signifikan menunjukkan bahwa penelitian telah dilakukandengan benar (Salah)

31.1 60.3 8.6 0 75 25 9

16 Jika analisis memberikan hasil yang SIGNIFIKAN, saya TIDAK perlumengecek apakah ada kesalahan dalam penelitian saya (Salah)

8.6 82.8 8.6 0 100 0 9

25

Page 17: MIS-INTERPRETASI NILAI P - Atma Jaya

No. Item (Kunci) Respon Umum(%)

Respon PengajarStatistik (%)

PoinTerkait

B S T B S T17 Jika p = 5% ini berarti probabilitas hasil yang saya dapatkan di sampel dapat

digeneralisasikan ke populasi sebesar 95% (Salah)62.1 22.4 15.5 75 25 0 2,4

18 Meskipun kita mengambil data dari seluruh populasi, kita tetap perlu melakukanuji signifikansi statistik untuk mengetahui apakah korelasi / perbedaan meanyang diperoleh signifikan (Salah)

77.6 15.5 6.9 50 50 0 *

19 Perbedaan atau korelasi yang tidak signifikan berarti ada perbedaan ataukorelasi tetapi kecil (Salah)

55.2 39.7 5.2 75 25 0 6

20 Nilai p < (LEBIH KECIL) 0.05 menunjukkan bahwa perbedaan atau korelasidalam penelitian ini tidak diakibatkan oleh kesalahan sampling (sampling error)melainkan karena adanya perbedaan atau korelasi yang nyata (Salah)

48.3 27.6 24.1 75 25 0 1

Catatan:B=Memberikan respon ‘Benar’, S=Memberikan respon ‘Salah’, T=Memberikan respon ‘Tidak Tahu’. Kata di dalam kurung setelah pernyataan merupakan respon yang benar. Item no 12 dan 18 tidak mewakili kesalahan interpretasi atau kesimpulan terhadap nilai p yang dibahas dalam subbab sebelumnya sehingga tidak terdapat poin yang secara langsung menjelaskan kekeliruan pernyataan ini. Penjelasan mengenai kekeliruan diberikan sebagai berikut: Pernyataan dalam item no 12 salah karena pengujian signifikansi hipotesis nul adalah pengujian terhadap hipotesis nul bukan hipotesis alternatif. Penjelasan mengenai hal ini dapat dilihat dalam subbab mengenai Makna Nilai p. * Pernyataan dalam item 18 salah karena pengujian signifikansi hipotesis nul dilakukan karena kebutuhan untuk melakukan inferensi terhadap kondisi di populasi. Jika peneliti telah mengambil seluruh populasi, maka kebutuhan melakukan inferensi tidak ada lagi, sehinggatidak lagi dibutuhkan pengujian signifikansi hipotesis nul

26

Page 18: MIS-INTERPRETASI NILAI P - Atma Jaya

Secara umum, masih banyak responden yang menunjukkan kekeliruan pemahaman

interpretasi nilai p dan kesimpulan yang terkait. Dari 20 item tersebut, sebagian besar (13 item)

direspon secara keliru oleh cukup banyak responden dengan prosentase lebih dari 50%. Tiga

item yang secara umum memiliki prosentase kekeliruan terbesar adalah item 1, 2 dan 18. Item no

1 dan 2 memang merupakan pernyataan yang paling sering digunakan sebagai interpretasi atau

kesimpulan hasil penelitian selama ini meskipun ternyata pemahaman seperti ini keliru. Cukup

mengejutkan juga bahwa item 18 yang merupakan anggapan perlunya uji signifikansi hipotesis

nul dalam penelitian yang melibatkan populasi menjadi salah satu kekeliruan yang dianut paling

banyak. Hal ini mungkin terjadi karena masih banyak yang menyamakan hasil uji signifikansi

hipotesis nul dengan besar kecilnya korelasi atau perbedaan mean.

Respon pada item no 14, 15, 16 menunjukkan bahwa masih cukup banyak responden

yang dapat memisahkan antara hasil analisis data dengan desain penelitian, bahwa hasil analisis

data dapat memberikan hasil yang signifikan meskipun dijalankan menggunakan desain

penelitian yang buruk. Namun demikian dalam pengalaman penulis, masih banyak peneliti yang

cenderung mengabaikan desain penelitian ketika analisis memberi hasil yang signifikan atau

sebaliknya menganggap penelitiannya bermasalah ketika hipotesis nul gagal ditolak meskipun

telah dijalankan sesuai prosedur yang benar.

Dari sampel pengajar statistik / pengukuran item no 1, 8, 10, 13 merupakan item yang

direspon “Benar” oleh semua responden. Item 1 merupakan pengambilan kesimpulan yang

paling sering digunakan dalam penelitian-penelitian ketika p < 0.05. Sementara item 8

merupakan interpretasi yang sangat dekat dengan kesalahan tipe 1. Item 10 dan 13 merupakan

item yang terkait dengan hipotesis nul yang sebenarnya tidak dapat dinyatakan benar meskipun

p>0.05.

Hasil survey ini tentu saja tidak dapat mewakili keseluruhan populasi dosen-mahasiswa-

peneliti psikologi di Indonesia. Namun demikian, melihat besarnya prosentase responden dan

para pengajar statistik yang keliru memahami nilai p, cukup kiranya hasil ini dijadikan sebagai

tanda bahaya terhadap adanya masalah dalam pemahaman metode penelitian di psikologi,

khususnya analisis data statistik, yang membutuhkan penanganan lebih serius.

Rekomendasi

Ada beberapa rekomendasi yang diusulkan oleh penulis terkait dengan permasalahan ini:

27

Page 19: MIS-INTERPRETASI NILAI P - Atma Jaya

1. Perlu kiranya usaha-usaha dilakukan lebih serius untuk mengoreksi pemahaman yang keliru

mengenai analisis statistik, di kalangan mahasiswa-dosen-peneliti, tidak terbatas pada

kesalahan pemahaman uji signifikansi hipotesis nul ini. Usaha-usaha ini dapat diwujudkan

dalam bentuk seminar untuk menyebarluaskan konsep-konsep dan praktek analisis statistik

dan metode penelitian yang benar dan pembenahan pengajaran statistik baik di tingkatan S1

maupun tingkatan yang lebih tinggi. Penulisan atau pemilihan buku ajar statistik perlu juga

untuk mempertimbangkan keakuratan informasi yang terkandung di dalamnya.

2. Metode-metode pengajaran statistik perlu dikembangkan untuk meningkatkan pemahaman

yang lebih baik akan konsep-konsep statistik. Misalnya penggunaan simulasi akan

mempermudah pengajar untuk memperkenalkan konsep mengenai standard error dari hasil

estimasi atau probabilitas.

3. Meskipun tidak secara langsung terkait dengan isu yang dibahas dalam artikel ini,

mempelajari cara-cara lain untuk melakukan pengujian hipotesis dapat membantu

meletakkan uji signifikansi hipotesis nul pada tempatnya. Cara-cara ini misalnya pendekatan

Bayesian dalam pengujian hipotesis, equivalence testing, close-enough fit statistics, dll.

Variasi dalam pengujian hipotesis testing dapat memberikan alternatif cara untuk menguji

hipotesis, khususnya ketika pertanyaan penelitian tidak dapat sepenuhnya dijawab

menggunakan pengujian signifikansi hipotesis nul. Usaha ini akan menghindarkan kita dari

praktik menerapkan prosedur yang tidak sesuai dengan kebutuhan penelitian.

4. Publikasi seperti “Statistical Methods in Psychological Journals” (Wilkinson & Task Force

on Statistical Inference, 1999) perlu dipelajari dan disebarluaskan untuk meningkatkan

pemahaman yang benar akan metode penelitian secara umum dan analisis statistik secara

khusus.

Akhir kata, kiranya artikel ini dapat menjadi pemicu bagi diskusi-diskusi dan refleksi mengenai

praktek analisis statistik yang selama ini telah dilakukan sehingga dapat memperbaiki

pemahaman dan praktek analisis statistik oleh dosen-peneliti-mahasiswa, khususnya dalam area

Psikologi di Indonesia.

28

Page 20: MIS-INTERPRETASI NILAI P - Atma Jaya

Daftar Pustaka

Bakan.D. (1966). The Test of Significance in Psychological Research. Psychological Buletin,Vol 66 (6): 423 – 437.

Christensen, R. (2005). Testing Fisher, Neyman, Pearson and Bayes. Journal of the AmericanStatistical Association. Vol 59 (2): 121 – 126

Cohen, J.(1994). The earth is round (p<0.05). American Psychologist. Vol 49(12): 997 – 1003.

Cumming, G.(2013). The new statistics: Why and how? Psychological Science. 25: 7 – 29. DOI:10.1177/0956797613504966

Greenwald.A.G., Gonzalez,R., Haris, R.J., & Gutrhie, D. (1996). Effect sizes and p values: Whatshould be reported and what should be replicated? Psychophysiology. Vol 33: 175 - 183.

Hagen, R.L. (1997). In praise of null hypothesis significance testing. American Psychologist. Vol52(1): 15 – 24.

Kline, R.B. (2004). Beyond significance testing. Reforming data analysis method in behavioralresearch. Washington DC: American Psychological Association

Lehmann, E.L.(1993). The Fisher, Neyman-Pearson theories of testing hypotheses: One theoryor two? Journal of the American Statistical Association. Vol 88(424):1242 – 1249.

Maxwell, S.E. & Delaney, H.D. (2004). Designing experiments and analyzing data, A modelcomparison perspective. Edisi kedua. Mahwah, NJ: Lawrence Erlbaum Associates,Publishers

Meehl, P.E. (1967). Theory-testing in psychology and physics: a methodological paradox.Philosophy of Science, Vol 34(2): 103-115.

Meehl. P.E. (1978). Theoretical Risks and Tabular Asterisks: Sir Karl, Sir Ronald and the SlowProgress of Soft Psychology. Journal of Consulting and Clinical Psychology. Vol.46(4):806 – 834.

Morey, R.D., Rouder, J.N., Verhagen, J., Wagenmakers, Eric-Jan. (2014). Why hypothesis testsare essential for psychological science: a comment on Cumming (2014). PsychologicalScience. 26: 1 – 2.

Oakes, M. (1986). Statistical Inference: A commentary for the social and behavioral sciences.Chichester: John Wiley & Sons.

Pashler, H. & Harris, C.R.(2012). Is the replicability crisis overblown? Three argumentsexamined. Perspectives on Psychological Science. Vol 7(6): 531 – 536.

29

Page 21: MIS-INTERPRETASI NILAI P - Atma Jaya

Hastjarjo, D. (2000). Seputar Kontroversi Uji Signifikansi Hipotesis Nul. Buletin Psikologi. Vol:8(2):1 – 6.

Sugiyanto. (2000). Keterbatasan Uji Signifikansi: Ilustrasi pada Analisis Korelasi 2 Variabel.Buletin Psikologi. Vol 8(2):33 – 50.

Sukadji, S. (2001). Kasus regresi: Ikut-ikutan menghakimi asumsi dan mempertanyakan ujisignifikansi. Buletin Psikologi. Vol 9(1):29 - 36

Suryabrata, S. (2000). Pengujian Signifikansi Hipotesis Nol dalam Penelitian Psikologis. BuletinPsikologi. Vol 8(2). 23 – 32

Swediati, N. & Bastari. (2000). Keterbatasan Uji Signifikansi Hipotesis Nul. Buletin Psikologi.Vol 8(2): 17 – 22.

Wilkinson, L & Task Force on Statistical Inference. (1999). Statistical Methods in PsychologicalJournals. Guidelines and Explanations. American Psychologist.Vol 54(8):594 – 604.

30

Page 22: MIS-INTERPRETASI NILAI P - Atma Jaya

Appendiks A-1

Skrip R untuk menampilkan Gambar 1 dan Gambar 2

##plots of Pr(H0|D) by varying ph0

pdh0=seq(.01,.1,.01)

pdhn0=.5

ph0=seq(.1,.9,.2)

plot(pdh0,ph0d,type='n',xlab='Pr(D|H0=true)',ylab='Pr(H0=true|

D)',ylim=c(0,.7),xlim=c(0,.12))

abline(h=.05,lty=3)

for(i in 1:length(ph0)){

ph0d=(pdh0*ph0[i])/(pdh0*ph0[i]+pdhn0*(1-ph0[i]))

lines(pdh0,ph0d,type='b')

text(0.105,ph0d[length(ph0d)],paste('Pr(H0=true)=',round(ph0[i],2)),pos=4,o

ffset=-.5,cex=.8)

}

##plots of Pr(H0|D) by varying pdhn0 (power of the study)

pdh0=seq(.01,.1,.01)

pdhn0=seq(.1,.9,.2)

ph0=.5

plot(pdh0,ph0d,type='n',xlab='Pr(D|H0=true)',ylab='Pr(H0=true|

D)',ylim=c(0,.53),xlim=c(0,.12))

for(i in 1:length(pdhn0)){

ph0d=(pdh0*ph0)/(pdh0*ph0+pdhn0[i]*(1-ph0))

lines(pdh0,ph0d,type='b')

text(0.105,ph0d[length(ph0d)],paste('Power=',round(pdhn0[i],2)),pos=4,offse

t=-.5,cex=.8)

}

abline(h=.05,lty=3)

31

Page 23: MIS-INTERPRETASI NILAI P - Atma Jaya

Appendiks A-2

Skrip R untuk melakukan simulasi untuk Gambar 4 (untuk d=0.8)

##### p = Probabilitas Replikasi

d=0.8

p_1=NULL

p_2=NULL

ns=seq(50,300,10)

for(j in 1:length(ns)){

f1=0

f2=0

for(i in 1:10000){

x=rnorm(ns[j],d)

y=rnorm(ns[j])

p1=t.test(x,y,alternative='two.sided',var.equal=TRUE)$p.value

if(p1<=0.05){f1=f1+1}

p2=1

if(p1<=.05){

x=rnorm(ns[j],d)

y=rnorm(ns[j])

p2=t.test(x,y,alternative='two.sided',var.equal=TRUE)$p.value

}

if(p1<=.05 & p2<=.05){f2=f2+1}

}

p_1=c(p_1,f1/10000)

p_2=c(p_2,f2/f1)

}

plot(ns,p_20,type='n',ylim=c(0,1),xlim=c(50,350),xlab='Ukuran

Sampel',ylab='Probabilitas Replikasi dengan p<.05')

lines(ns,p_2)

text(ns[5],p_2[length(p_2)],'d = 0.8',pos=1,cex=.8)

abline(h=.95,lty=3)

32