Cara penargetan Cambridge Analytica di Facebook—menurut orang yang membuatnya

Seberapa tepat orang bisa menebak karakter Anda lewat jejak digital Anda? Andrew Krasovitckii/Shutterstock.com

Cara penargetan Cambridge Analytica di Facebook—menurut orang yang membuatnya

Peneliti yang risetnya berada pada pusat skandal Facebook-Cambridge Analytica soal analisis data untuk iklan politis telah mengungkapkan bahwa metode yang ia pakai mirip seperti yang digunakan Netflix untuk merekomendasikan film untuk penggunanya.

Dalam sebuah surat elektronik pada saya, peneliti Cambridge University Aleksandr Kogan menjelaskan bagaimana model statistika miliknya memproses data Facebook untuk Cambridge Analytica. Tingkat keakuratan yang ia klaim menunjukkan bahwa metodenya bekerja sebaik metode penyasaran pemilih berbasis demografi seperti ras, usia, dan gender.

Jika pengakuan Kogan benar, artinya pemodelan digital yang digunakan Cambridge Analytica jauh dari beberapa klaim yang menyebutnya sebagai sebuah bola kristal virtual. Meski demikian, angka yang Kogan berikan menunjukkan apa yang mungkin—dan tidak mungkin—terjadi jika sebuah entitas menggabungkan data pribadi dengan machine learning untuk tujuan politik.

Sebelum kita lanjut, ada satu isu kunci yang menyangkut kepentingan publik. Angka-angka yang Kogan berikan menunjukkan bahwa informasi mengenai kepribadian pengguna atau “psikografi” hanya bagian kecil dalam pemodelan untuk menyasar warga. Model yang digunakan Kogan bukan berdasarkan pada kepribadian semata, namun model yang menggabungkan demografi, pengaruh sosial, kepribadian, dan banyak hal lain menjadi satu korelasi besar. Pendekatan gabungkan-semua-korelasi-dan-panggil-saja-ini-kepribadian menjadi alat kampanye yang berharga, meski produk yang dijual tidak sepenuhnya seperti apa yang digadangkan.

Janji-janji penargetan berdasarkan kepribadian

Menyusul terungkapnya penggunaan data lebih dari 50 juta pengguna Facebook oleh konsultan kampanye Trump, Cambridge Analytica, untuk menyasar iklan digital politik selama pemilihan presiden AS pada 2016, Facebook telah rugi miliaran dollar dari turunnya nilai saham mereka, pemerintah di dua sisi Samudera Atlantis telah membuka penyelidikan, dan sebuah gerakan sosial baru menyerukan pengguna media sosial untuk #DeleteFacebook.

Di Indonesia lebih 1 juta pengguna Facebook termasuk yang datanya diambil oleh Cambdrige Analytica, membuat Indonesia negara paling terkena dampak ketiga, sesudah AS dan Filipina.

Namun ada pertanyaan kunci yang masih belum terjawab: Apakah Cambridge Analytica benar-benar secara efektif dapat menyasar pesan kampanye pada warga berdasarkan karakter kepribadian mereka—bahkan “rahasia terburuk” mereka, seperti dituduhkan seorang peniup peluit dari perusahaan tersebut?

Jika ada pihak yang paling tahu apa yang dilakukan Cambridge Analytica dengan segunung data Facebook yang mereka punya, mereka adalah Aleksandr Kogan dan Joseph Chancellor. Startup Global Science Research milik merekalah yang mengumpulkan informasi profil dari 270.000 pengguna Facebook dan puluhan juta teman mereka menggunakan aplikasi tes kepribadian bernama “thisisyourdigitallife.”

Bagian dari riset saya sendiri fokus untuk memahami metode-metode machine learning, dan buku saya yang akan terbit membahas cara perusahaan digital menggunakan model rekomendasi untuk membangun khalayak. Saya punya bayangan bagaimana modelnya Kogan dan Chancellor bekerja.

Maka saya mengirim surel pada Kogan dan bertanya padanya. Kogan masih peneliti di Cambridge University; sementaranya rekannya Chancellor sekarang bekerja untuk Facebook. Kogan, menunjukkan sopan santun akademis yang tinggi, menjawab pertanyaan-pertanyaan saya.

Jawaban Kogan membutuhkan sedikit penjelasan, dan latar belakang.

Dari Sayembara Netflix ke “psikometri”

Pada 2006, ketika Netflix masih perusahaan yang mengirimkan DVD lewat pos, Netflix menawarkan hadiah $1 juta pada siapa pun yang mengembangkan cara lebih baik daripada yang dimiliki perusahaan tersebut untuk memprediksi peringkat film menurut pengguna. Pesaing teratas adalah developer perangkat lunak independen dengan pseudonim Simon Funk. Pendekatan dasar Funk pada akhirnya disertakan dalam semua entri tim teratas. Funk mengadaptasi teknik yang dinamakan “dekomposisi nilai singular,” (singular value decomposition atau SVD) yang memampatkan rating film pengguna ke dalam sebuah rangkaian faktor atau komponen— intinya sebuah set kategori hasil inferensi, yang disusun berdasarkan mana yang paling penting. Funk menjelaskan dalam postingan blog,

“Jadi, misalnya, sebuah kategori mungkin mewakili film aksi, dengan film-film yang punya banyak adegan aksi di atas, dan film-film lambat di bawah, dan sesuai dengan itu pengguna yang suka film aksi di atas, dan yang suka film lambat di bawah.”

Faktor-faktor adalah kategori buatan, yang tidak selalu mirip dengan kategori yang seorang manusia akan susun. Faktor paling penting dalam model awal Funk untuk Netflix ditentukan oleh pengguna-pengguna yang menyukai film-film seperti “Pearl Harbor” dan “The Wedding Planner” dan pada saat yang sama tidak suka film-film seperti “Lost in Translation” atau “Eternal Sunshine of the Spotless Mind.” Model milik Funk menunjukkan machine learning dapat menemukan korelasi antara kelompok orang, dan kelompok film, yang manusia tak akan pernah temukan sendiri.

Pendekatan Funk menggunakan 50 atau 100 faktor paling penting untuk pengguna dan film untuk menebak secara tepat bagamana pengguna akan memberi rating sebuah film. Metode ini, yang seringkali disebut reduksi dimensionalitas (dimensionality reduction) atau faktorisasi matriks (matrix factorization), bukan hal baru. Peneliti ilmu politik telah menemukan bahwa teknik yang mirip menggunakan data voting berdasarkan absensi dapat memprediksi bagaimana anggota Kongres AS memilih dengan tingkat keakuratan 90%. Dalam psikologi, model “Lima Besar” juga telah digunakan untuk memprediksi perilaku dengan mengelompokkan pertanyaan-pertanyaan mengenai kepribadian yang cenderung dijawab sama.

Tetap saja, modelnya Funk punya keuntungan lebih: modelnya membuat teknik tersebut dapat digunakan dengan set data yang besar, termasuk set data dengan banyak data yang tak lengkap—seperti set data milik Netflix, di mana seorang pengguna umumnya hanya memberi rating beberapa lusin film dari ribuan film di perpustakaan film perusahaan tesebut. Lebih dari satu dekade setelah Sayembara Netflix berakhir, metode berbasis SVD, atau model yang berhubungan untuk data implisit, tetap merupakan alat yang dipilih banyak situs untuk memprediksi apa yang akan pengguna baca, tonton, atau beli.

Model-model ini dapat memprediksi hal-hal lain juga.

Facebook tahu jika seorang warga AS pemilih partai Republik

Pada 2013, peneliti dari Cambridge University Michal Kosinski, David Stillwell dan Thore Graepel menerbitkan sebuah artikel tentang kekuatan prediktif data Facebook, menggunakan informasi yang dikumpulkan melalui tes kepribadian online. Analisis awal mereka hampir identik dengan yang digunakan Sayembara Netflix, menggunakan SVD untuk mengkategorisasi pengguna dan hal-hal yang mereka suka (“like”) ke dalam 100 faktor teratas.

Makalah mereka menunjukkan bahwa model faktor dengan menggunakan “like” Facebook saja 95% akurat dalam membedakan responden berkulit putih atau hitam, 93% akurat dalam membedakan laki-laki dari perempuan, dan 88% akurat membedakan orang yang mengidentifikasi dirinya sebagai laki-laki gay dari laki-laki heteroseksual. Model ini bahkan dapat membedakan kelompok Republikan dari Demokrat dengan tingkat keakuratan 85%. Model ini juga dapat memprediksi, meski tidak sebegitu akurat, skor pengguna dalam tes kepribadian “Lima Besar”.

Menanggapi keluarnya hasil penelitian tersebut, publik protest; dan dalam beberapa minggu Facebook kemudian membuat like pengguna menjadi privat.

Kogan dan Chancellor, juga peneliti Cambridge University pada saat itu, mulai menggunakan data Facebook untuk penyasaran dalam pemilihan umum sebagai bagian dari sebuah kolaborasi dengan SCL, perusahaan induk Cambridge Analytica. Kogan mengundang Kosinski dan Stillwell bergabung dalam proyek tersebut, tapi kolaborasi antara mereka tidak terwujud. Kosinski dilaporkan mencurigai bahwa Kogan dan Chancellor telah melakukan rekayasa-terbalik model “like” Facebook untuk Cambridge Analytica. Kogan membantah ini. Ia mengatakan proyeknya “membangun semua model yang kami mereka punya, menggunakan data kami sendiri yang dikumpulkan menggunakan perangkat lunak kami sendiri.”

Apa yang sebenarnya dilakukan Kogan dan Chancellor?

Seiring perkembangan cerita ini, saya melihat bahwa jelas Kogan dan Chancellor memang mengumpulkan banyak data menggunakan aplikasi thisisyourdigitallife. Mereka jelas dapat membuat model prediktif SVD seperti yang ada dalam penelitian Kosinski dan Stillwell.

Maka saya mengirim surel pada Kogan bertanya jika itu yang dia lakukan. Saya kaget juga ketika ia membalas.

“Kami tidak betul-betul menggunakan SVD,” tulisnya. Ia menggarisbawahi bahwa SVD dapat menemui masalah ketika sejumlah pengguna memiliki lebih banyak “like” daripada pengguna lain. Sebaliknya, Kogan menjelaskan, “Tekniknya sebetulnya sesuatu yang kami kembangkan sendiri … Ini bukan sesuatu yang ada di ranah publik.” Tanpa menjelaskan secara mendetil, Kogan menjelaskan bahwa metode mereka adalah “pendekatan ko-okurensi multi langkah.”

Namun, jawaban dia mengkonfirmasi bahwa pendekatan yang ia gunakan memang mirip dengan SVD atau metode faktorisasi matriks lainnya, seperti yang digunakan Sayembara Netflix, dan model Facebook Kosinki-Stillwell-Graepel. Reduksi dimensionalitas merupakan inti dari modelnya.

Seberapa akurat model ini?

Kogan menulis bahwa tepatnya model apa yang digunakan bukan inti dari permasalahan—yang penting adalah tingkat keakuratan prediksi yang dilakukan. Menurut Kogan, “korelasi antara skor prediksi dan skor asli … sekitar [30 percent] untuk semua dimensi kepribadian.” Sebagai perbandingan, skor Lima Besar seseorang akurat sekitar 70 hingga 80% dalam memprediksi skor ketika mereka mengambil kembali tes tersebut.

Jelas, klaim Kogan soal tingkat keakuratan tidak dapat diverifikasi secara independen. Dan siapa pun yang berada di tengah skandal yang sangat high-profile seperti ini mungkin punya insentif untuk mengecilkan kontribusinya. Dalam wawancara di CNN, Kogan menjelaskan pada Anderson Cooper, yang dalam wawancara tersebut terlihat semakin lama semakin meragukan Kogan, bahwa sebenarnya model yang ia gunakan tidak bekerja dengan baik.

Aleksandr Kogan menjawab pertanyaan di CNN.

Pada kenyataannya, klaim akurasi Kogan terlihat sangat rendah, tapi mungkin saja benar. Kosinski, Stillwell dan Graepel melaporkan hasil yang mirip atau sedikit lebih baik, seperti juga beberapa studi akademik lainnya yang menggunakan jejak digital untuk memprediksi kepribadian (meski beberapa dari penelitian tersebut menggunakan lebih banyak data daripada hanya “like” Facebook). Agak mengherankan bahwa Kogan dan Chancellor repot-repot merancang model mereka sendiri jika solusi yang sudah ada sama akuratnya.

Yang lebih penting lagi, tingkat akurasi model untuk skor kepribadian membuat kita dapat membandingkan hasil milik Kogan dengan penelitian lain. Model lain yang sudah diterbitkan dalam jurnal ilmiah dengan tingkat akurasi yang setara dalam memprediksi kepribadian semuanya lebih akurat dalam menebak variabel demografis dan politik.

Sebagai contoh, model SVD Kosinski-Stillwell-Graepel yang mirip punya Kogan 85% akurat dalam menebak afiliasi partai politik, bahkan tanpa menggunakan informasi profil selain “like”. Model Kogan memiliki tingkat akurasi yang mirip atau lebih baik. Menambahkan sedikit saja informasi mengenai teman atau demografi pengguna akan meningkatkan akurasi ini menjadi di atas 90%. Tebakan mengenai gender, ras, orientasi seksual dan karakteristik lain mungkin bisa jadi lebih dari 90% akurat juga.

Penting untuk diketahui juga, tebakan-tebakan ini akan sangat tepat untuk pengguna Facebook yang paling aktif—orang-orang yang disasar oleh model ini. Lagipula, pengguna yang tidak aktif kemungkinan besar tidak sering ada di Facebook.

Ketika psikografi sebenarnya demografi

Dengan mengetahui bagaimana model ini dikembangkan bisa menjelaskan mengapa pernyataan-pernyataan Cambridge Analytica yang bertentangan soal peran—atau ketiadaan peran—penciptaan profil kepribadian dan psikografi dalam model yang digunakan. Semuanya secara teknis konsisten dengan apa yang Kogan jelaskan.

Model seperti yang Kogan gunakan akan memberikan perkiraan untuk setiap variabel yang tersedia dalam kelompok pengguna manapun. Artinya, model tersebut secara otomatis akan memperkirakan skor kepribadian Lima Besar untuk setiap pemilih. Namun, skor kepribadian ini adalah hasil dari model, bukan input. Yang model tersebut ketahui hanyalah bahwa like Facebook tertentu, dan sekelompok pengguna tertentu, cenderung berada dalam satu kelompok.

Dengan model ini, Cambridge Analytica dapat mengatakan bahwa mereka sedang mengidentifikasi orang dengan kecenderungan tidak terbuka pada pengelaman baru dengan tingkat neurotisime yang tinggi. Namun, model yang sama, dengan prediksi yang sama dengan setiap pengguna, juga dapat secara akurat mengklaim sedang mengidentifikasi pria Republikan lanjut usia yang berpendidikan rendah.

Informasi yang Kogan berikan juga membantu mengklarifikasi kebingungan tentang apakah Cambridge Analytica menghapus kumpulan data Facebook yang mereka miliki, ketika model-model yang dikembangkan dari data tersebut nampaknya masih beredar, dan bahkan sedang dikembangkan lebih jauh.

Inti dari model reduksi dimensi adalah untuk secara matematis mewakili data dalam bentuk yang lebih sederhana. Ini layaknya Cambridge Analytica mengambil foto dengan resolusi yang sangat tinggi, mengubah ukurannya menjadi lebih kecil, dan kemudian menghapus foto asli. Fotonya masih ada—dan selama model Cambridge Analytica masih ada, datanya secara efektif masih ada juga.


Artikel ini diterjemahkan dariHow Cambridge Analytica’s Facebook targeting model really worked – according to the person who built itdan diperbarui untuk menambahkan informasi yang berhubungan dengan penggunaan data Facebook warga Indonesia oleh Cambridge Analytica.

This article was originally published in English