AI bisa saja memesan restoran atau buat janji dengan salon, tapi jangan harap bisa bicara fasih

Yakin asisten AI Anda dapat membuat janji untuk Anda, tapi bagaimana memahami percakapannya? Vasin Lee/Shutterstock

Google baru-baru ini mengumumkan artificial intelligence (AI) wicara terbaru yang disebut Duplex. Duplex terdengar seperti orang beneran, dilengkapi dengan jeda sejenak, “umms” dan “ahhs”.

Raksasa teknologi ini mengatakan bahwa robot itu dapat bicara di telepon untuk membuat janji dan mengecek jam buka bisnis.

Duplex menjadwalkan sebuah janji salon rambut. Google445 KB (download)

Dalam rekaman pembicaraan yang dimainkan saat pengumuman Google, robot itu berbicara secara runtut dengan manusia sebagai pihak penerima, yang tampaknya sama sekali tidak menyadari bahwa mereka tidak sedang bicara dengan orang lain.

Duplex menelepon sebuah restoran. Google399 KB (download)

Panggilan ini membuat pengunjung di acara Google riuh bersorak. Dalam satu contoh, AI bahkan mengerti ketika orang yang berbicara bercampur aduk, dan dapat terus mengikuti percakapan dan merespons dengan tepat ketika diberitahu bahwa tidak perlu melakukan pemesanan.


Read more: Finkel: overcoming our mistrust of robots in our homes and workplaces


Munculnya asisten AI

Bila Anda menggunakan asisten suara yang tersedia saat ini seperti Google Home, Siri-nya Apple atau Amazon Echo, fleksibilitas ini mungkin mengejutkan Anda. Asisten ini sangat sulit untuk digunakan hal yang lain kecuali untuk permintaan standar seperti untuk menelepon kontak, memainkan sebuah lagu, melakukan satu pencarian web sederhana, atau menyetel pengingat.

Ketika kita bicara kepada asisten generasi ini, kita selalu menyadari bahwa kita sedang berbicara dengan sebuah AI dan kita kerap menyesuaikan apa yang kita katakan, ini cara yang kami harapkan memaksimalkan kesempatan kami membuat AI ini bekerja.

Tapi orang-orang yang berbicara dengan Duplex tidak tahu. Mereka ragu-ragu, menarik kembali, melewatkan kata-kata, dan bahkan mengubah fakta di tengah-tengah sebuah kalimat. Duplex tidak ketinggalan sedikit pun. Sepertinya dia benar-benar memahami apa yang sedang terjadi.


Read more: Smart speakers could be the tipping point for home automation


Jadi apakah masa depan telah tiba lebih awal dari yang diperkirakan? Apakah dunia akan dipenuhi oleh asisten AI online (dan di telepon) yang mengobrol dengan gembira dan melakukan segalanya untuk kita? Atau lebih buruk lagi, akankah kita tiba-tiba dikelilingi oleh AI cerdas dengan pikiran dan ide mereka sendiri yang mungkin melibatkan manusia atau tidak ?

Jawabannya adalah jelas tidak. Untuk memahami mengapa, mari kita pahami apa yang mendorong AI seperti ini.

Duplex: bagaimana cara kerjanya

Seperti inilah sistem AI Duplex.

Suara yang masuk diproses melalui sistem ASR. Ini menghasilkan teks yang dianalisis dengan data konteks dan masukan lain untuk menghasilkan teks respons yang dibacakan melalui sistem text-to-speech (TTS). Google

Sistem mengambil “input” (ditampilkan di sebelah kiri) yang merupakan suara orang yang sedang berbicara di telepon. Suara melewati pengenalan suara otomatis (ASR) dan diubah menjadi teks (kata-kata tertulis). ASR sendiri merupakan sistem AI canggih, tapi dari jenis yang sudah umum digunakan di asisten suara yang ada.

Teks kemudian dipindai untuk menentukan jenis kalimat itu (seperti sapaan, pernyataan, pertanyaan atau instruksi) dan mengekstrak informasi penting apa pun. Informasi kunci kemudian menjadi bagian dari Konteks, yang merupakan masukan tambahan yang membuat sistem tetap up to date dengan apa yang telah dikatakan sejauh ini dalam percakapan.

Teks dari ASR dan Konteks kemudian dikirim ke jantung Duplex, yang disebut Artificial Neural Network (ANN).

Pada diagram di atas, ANN ditunjukkan oleh lingkaran dan garis yang menghubungkannya. ANN dibuat berdasar bentuk model otak kita, yang memiliki miliaran neuron yang terhubung bersama menjadi jaringan yang sangat besar.

Belum cukup otak

ANN jauh lebih sederhana daripada otak kita. Satu-satunya hal yang coba dilakukan adalah mencocokkan kata-kata masukan dengan respons yang tepat. ANN belajar dengan menunjukkan transkrip dari ribuan percakapan orang yang membuat pemesanan untuk restoran.

Dengan cukup banyak contoh, ia belajar jenis kalimat masukan apa yang diharapkan dari orang yang diajak bicara, dan jenis tanggapan apa yang diberikan untuk masing-masing.

Respons teks yang dihasilkan oleh ANN kemudian dikirim ke alat yang menerjemahkan teks ke ucapan (TTS), yang mengubahnya menjadi kata-kata lisan yang kemudian diputar ke orang di telepon.

Sekali lagi, TTS ini adalah AI canggih - dalam hal ini lebih maju daripada yang ada di ponsel Anda, karena kedengarannya hampir tidak dapat dibedakan dari suara normal apa pun.

Hanya itu saja. Meskipun itu menjadi state-of-the-art, jantung dari sistem ini benar-benar hanya proses pencocokan teks. Tapi Anda mungkin bertanya - jika itu sangat sederhana, mengapa kita tidak bisa melakukannya sebelumnya?

Sebuah tanggapan yang dipelajari

Faktanya adalah bahwa bahasa manusia, dan banyak hal lain di dunia nyata, terlalu bervariasi dan tidak teratur untuk ditangani dengan baik oleh komputer normal, tapi masalah semacam ini sangat cocok untuk AI.

Perhatikan bahwa output yang dihasilkan oleh AI sepenuhnya bergantung pada percakapan yang ditunjukkan saat sedang belajar.

Ini berarti bahwa AI yang berbeda perlu dilatih untuk membuat pemesanan dari berbagai jenis - jadi, misalnya, satu AI dapat memesan restoran dan yang lain dapat memesan janji potong rambut.


Read more: The future of artificial intelligence: two experts disagree


Ini diperlukan karena jenis pertanyaan dan tanggapan dapat sangat bervariasi untuk berbagai jenis pemesanan. Ini juga bagaimana Duplex bisa jauh lebih baik daripada asisten suara umum, yang perlu menangani banyak jenis permintaan.

Jadi sekarang harus jelas bahwa kita tidak akan melakukan percakapan santai dengan asisten AI kita dalam waktu dekat. Bahkan, semua AI kami saat ini benar-benar tidak lebih dari kecocokan pola (dalam hal ini, pola pencocokan teks). Mereka tidak mengerti apa yang mereka dengar, atau apa yang mereka lihat, atau apa yang mereka katakan.

Pencocokan pola adalah satu hal yang dilakukan otak kita, tapi mereka juga melakukan lebih banyak hal. Kunci untuk menciptakan AI yang lebih powerful mungkin untuk mengungkap lebih banyak rahasia otak. Apakah kita mau? Nah, itu adalah pertanyaan lain lagi.

This article was originally published in English