Manipulasi statistik, mengapa banyak temuan penelitian tak dapat dipercaya

Di luar masalah anggaran, dampak riset yang belum signifikan, dan buruknya pengelolaan data riset di Indonesia, keengganan peneliti menyediakan akses terbuka pada data dan material studinya juga membuat sains jalan di tempat.

Manipulasi metode statistik juga dapat menghasilkan temuan riset yang tidak kredibel. Manipulasi ini dapat disebabkan kecurangan peneliti atau adanya konflik kepentingan periset dengan sumber dana dari industri yang hanya mau dengan hasil positif untuk mendukung pemasaran produk.

Kegelisahan ini dirasakan oleh beberapa peneliti yang tergabung dalam gerakan sosial #OpenScience (Sains Terbuka).

Saya mengurai masalah tersebut dengan argumentasi yang terinsipirasi dari artikel legendaris yang ditulis oleh Profesor Biostatistik dari Stanford University John Ioannidis, “Why Most Research Findings are False.”

Krisis kredibilitas sains

Keengganan mengungkap prosedur penelitian menyebabkan krisis kredibilitas dalam sains. Contohnya, pada 2011, Daryl Bem, ahli parapsikologi dari Cornell University menerbitkan temuan penelitiannya yang sangat bombastis mengenai fenomena cenayang (precognition) di jurnal amat bergengsi, Journal of Personality and Social Psychology, terbitan American Psychological Association (APA). Bem melakukan 9 eksperimen, 8 diantaranya signifikan (nilai p<0.05) membuktikan bahwa manusia punya kemampuan memprediksi masa depan.

Peneliti lain yang penasaran mencoba melakukan replikasi atas penelitian Bem gagal mendapatkan hasil yang signifikan, tak seperti yang diklaim Bem, meskipun sudah mengikuti secara teliti prosedur yang Bem tulis dalam artikelnya. Entah apa yang Bem lakukan sampai mendapatkan hasil yang mencengangkan tersebut.

Kasus lainnya terkait dengan riset obat-obatan. Penelitian meta-analisis mengenai efektivitas obat Anti-Depresan bernama Fluoxetine (Prozac) menghasilkan kesimpulan bahwa efek Prozac cenderung plasebo, sehingga tak ada manfaatnya sama sekali. Padahal obat tersebut sangat laris–pada 2005 saja total penjualan Prozac mencapai US$22 miliar di seluruh dunia.

Sementara, penelitian meta-analisis yang sedang saya lakukan mengenai dukungan sosial dan kecenderungan depresi sampai sampai pada kesimpulan bahwa tidak adanya bukti yang meyakinkan bahwa keduanya berkaitan. Saya menganalisis 5450 naskah publikasi yang diterbitkan dalam kurun waktu 20 tahun terakhir (1998-2018) yang ditulis dalam bahasa Indonesia. Namun hanya 13 artikel yang dapat dianalisis lebih lanjut. Ketiga belas artikel tersebut juga dianalisis kualitasnya dan sayangnya, semuanya rata-rata bermutu rendah.

Nilai p dan ‘angka keramat 0.05’

Bagi peneliti yang menggunakan pendekatan kuantitatif, pemakaian teknik statistik untuk menguji hipotesis adalah keniscayaan. Hipotesis penelitian, yaitu suatu asumsi yang menjelaskan sebuah fenomena, umumnya terdiri atas hipotesis nol (tidak ada efek) dan hipotesis alternatif (ada efek).

Paradigma ini berakar dari tradisi post-positivisme Popperian, di mana penelitian merupakan upaya untuk melakukan falsifikasi, membuktikan bahwa hipotesis nol salah. Biasanya, peneliti menggunakan nilai p (p-value) atau taraf signifikansi sebagai indikator untuk menolak atau menerima hipotesis.

Lazim dipercayai, ketika nilai p<0.05 maka hipotesis nol ditolak, sedangkan nilai p>0.05 maka hipotesis nol diterima, sehingga nilai p<0.05 menjadi semacam ‘angka keramat’ yang menentukan kesuksesan atau kegagalan penelitian. Kalau hasilnya signifikan, maka penelitian dianggap ‘berhasil’ menemukan efek yang signifikan, sedangkan sebaliknya, bila nilai p>0.05 berarti kiamat bagi peneliti.

Tidak banyak jurnal yang mau menerbitkan hasil penelitian dengan kesimpulan, “tidak ada efek yang signifikan.” Tak ada dosen pembimbing tugas akhir yang sumringah mendapati mahasiswa bimbingannya mendapat nilai p>0.05. Implikasinya, peneliti terdorong untuk melakukan cara-cara tak terpuji, misalnya sengaja menggunakan jumlah sampel yang besar agar mendapatkan nilai p<0.05. Inilah penyakit yang bertahun-tahun mencekik kredibilitas sains.

Pada Maret 2016, American Statistical Association (ASA) mengeluarkan pernyataan pers yang menggegerkan komunitas sains soal nilai p. Ron Wasserstein, Direktur Eksekutif ASA, menyatakan nilai p tidak boleh lagi diperlakukan layaknya ‘angka keramat,’ lebih-lebih sampai menumpulkan logika dan rasionalitas para peneliti. Nilai p sesungguhnya tidak ada kaitannya dengan diterima atau ditolaknya hipotesis, ia hanya berarti “… Probabilitas peneliti lain akan mendapatkan data yang ekstrem, seandainya hipotesis nol adalah hipotesis yang benar”.

Menggunakan nilai p untuk menolak dan menerima hipotesis sangat bermasalah dalam tataran praktis dan teoritis. Peneliti seharusnya lebih fokus pada besarnya efek. Misalnya, ketika seorang dokter yang ingin meneliti efektivitas obat tertentu dalam menyembuhkan penyakit, maka kesimpulan yang diinginkan adalah bukan apakah obat ini signifikan atau tidak, melainkan efektif atau tidak. Kalau efektif, seberapa besar efektivitasnya. Nilai p tidak menyediakan informasi apa pun soal efektivitas, sehingga peneliti perlu parameter lain yang disebut ukuran efek (effect size).

Nilai p sangat sensitif dengan jumlah sampel. Meski ukuran efek sangat kecil, nilai p bisa menjadi sangat signifikan bila jumlah sampel besar. Sebaliknya, meski ukuran efek sangat besar, nilai p menjadi tidak signifikan jika jumlah sampel sangat kecil.

Akhirnya, efek sekecil apa pun dapat menjadi signifikan bila jumlah sampel sangat besar, sedangkan efek sebesar apa pun menjadi tidak signifikan jika jumlah sampel sangat kecil.

Dengan begitu, peneliti dapat dengan sengaja menambah jumlah sampel secara terus-menerus hanya agar mendapat nilai p<0.05 (p-hacking). Padahal strategi ini memperbesar kemungkinan peneliti mendapatkan false positive, yaitu ketika peneliti menyimpulkan ada efek, padahal efek tersebut tak pernah ada.

Peneliti juga tak pernah peduli dengan statistical power teknik analisis statistiknya. Padahal dalam statistik, statistical power yang menentukan apakah temuannya akurat atau tidak, bukan nilai p. Bila suatu teknik (model) statistik powerful, maka peneliti punya peluang yang besar untuk mendeteksi adanya efek, kalau efek itu betul-betul ada. Analisis power juga dapat membantu peneliti untuk merencanakan jumlah sampelnya agar jumlah sampel tak terlalu kecil, atau terlalu besar.

Menariknya, John Ioannidis menunjukkan bahwa sebagian besar penelitian yang terpublikasi punya statistical power yang cenderung rendah. Penelitian-penelitian di bidang psikologi misalnya, diperkirakan rata-rata hanya punya power sebesar 50%, yang artinya peneliti hanya punya 50% peluang untuk mendeteksi adanya efek, kalau efek tersebut betul-betul ada.

Kelirunya penggunaan nilai p membuat sebagian besar hasil penelitian yang dipublikasikan di berbagai jurnal, termasuk jurnal dengan faktor dampak yang tinggi, sekadar menjadi bukti parahnya bias kognitif yang menjangkit para peneliti. Sekaligus menjadi penguat bahwa ada krisis kredibilitas yang amat serius yang harus segera diatasi oleh komunitas akademik.

Transparansi dan konflik kepentingan

Nilai informasi dari penelitian hanya dapat dipastikan melalui proses replikasi. Ketika peneliti lain tak mendapatkan hasil yang konsisten, maka klaim sebelumnya tentu meragukan. Desain penelitian seperti telaah sistematis (systematic review) dan meta-analisis juga dapat digunakan untuk memastikan apakah temuan berbagai penelitian atas suatu gejala konsisten dan dapat dipercaya.

Kenyataannya, berbagai penelitian meta-analisis memberikan bukti bahwa kebanyakan penelitian memberikan informasi yang menyesatkan.

John Ioannidis mengatakan semakin suatu disiplin ilmu dianggap seksi dan dekat dengan kepentingan industri, maka kemungkinan besar mayoritas studi yang dilakukan dalam disiplin ilmu tersebut adalah false positive.

Contohnya, tak sulit kita menemukan penelitian yang mengaitkan kemungkinan akan semakin maraknya peredaran rokok ilegal bila cukai tembakau dinaikkan drastis. Penelitian ini sering digunakan oleh industri rokok sebagai dasar argumentasi mereka untuk menolak kebijakan kenaikan cukai.

Setelah dilakukan penelitian telaah sistematis, hasil riset mereka cenderung membesar-besarkan skala pasar rokok ilegal. Seolah-olah besar, padahal kenyataannya kecil sekali. Diduga temuan penelitian anti-kenaikan cukai rokok ini sangat didikte oleh kepentingan industri rokok, karena mereka yang mensponsori penelitian-penelitian tersebut. Padahal sejumlah riset telah membuktikan menaikkan cukai rokok adalah salah satu instrumen untuk menurunkan prevalensi konsumsi rokok.

Lalu bagaimana?

Sains saat ini stagnan, karena peneliti menolak untuk terbuka. Sayangnya, Kementerian Riset, Teknologi dan Pendidikan Tinggi terlalu memfokuskan kebijakannya untuk menggenjot kuantitas publikasi ilmiah, tapi menutup mata atas gejala degradasi kualitas penelitian dan integritas penelitinya. Meski jumlah publikasi ilmiah peneliti Indonesia diklaim menyalip Singapura, nyatanya artikel ilmiah peneliti Indonesia lebih banyak diterbitkan di prosiding, yaitu kumpulan naskah ilmiah yang dipresentasikan dalam suatu konferensi atau temu ilmiah, yang proses telaahnya umumnya dilakukan secara asal-asalan.

Untuk mengembalikan kredibilitas sains, maka peneliti harus terbuka–mulai dari asumsi awal, prosedur pengambilan dan analisis data, data mentah, sampai pada kemungkinan adanya konflik kepentingan. Hal ini dapat dilakukan salah satunya dengan pre-registrasi.

Sejatinya, saat ini sudah banyak portal daring yang dapat dimanfaatkan peneliti sebagai etalase pre-registrasi, data mentah dan material studinya, seperti Open Science Framework. Maka agar kerja sains menjadi progresif dan bermakna, tak ada jalan keluar lain–peneliti harus terbuka, atau tertinggal.

Tak salah bila ada yang menganalogikan, “Politikus boleh saja berbohong, karena ia harus selalu benar. Peneliti boleh saja salah, tapi ia tak boleh berbohong.” Saya setuju bahwa kualitas suatu penelitian terletak pada integritas dan standar moral penelitinya.

Manipulasi statistik, mengapa banyak temuan penelitian tak dapat dipercaya

Author

Disclosure statement

Partners

Krisis kredibilitas sains

Nilai p dan ‘angka keramat 0.05’

Transparansi dan konflik kepentingan

Lalu bagaimana?

Want to write?