Masa Depan Asisten Google Menatap Wajah Kita

Selama bertahun-tahun kita sudah dijanjikan masa depan komputasi di mana perintah kami tidak diketuk, diketik, atau digesek, tetapi diucapkan. Tertanam dalam janji ini, tentu saja, kenyamanan; komputasi suara tidak hanya bebas genggam, tetapi juga sangat membantu dan jarang tidak efektif.

Itu belum berhasil. Penggunaan asisten suara telah meningkat dalam beberapa tahun terakhir karena lebih banyak pelanggan smartphone dan rumah pintar memilih (atau dalam beberapa kasus, secara tidak sengaja “membangunkan”) AI yang tinggal di perangkat mereka. Tapi tanyakan kebanyakan orang apa yang mereka gunakan asisten ini untuk, dan masa depan yang dikendalikan suara terdengar hampir primitif, penuh dengan laporan cuaca dan pengatur waktu makan malam. Kami dijanjikan kecerdasan tanpa batas; kami mendapatkan “Child Shark” secara berulang.

Google sekarang mengatakan kita berada di puncak period baru dalam komputasi suara, karena kombinasi kemajuan dalam pemrosesan bahasa alami dan chip yang dirancang untuk menangani tugas-tugas AI. Selama konferensi pengembang I/O tahunan hari ini di Mountain View, California, kepala Asisten Google Google, Sissie Hsiao, menyoroti fitur-fitur baru yang merupakan bagian dari rencana jangka panjang perusahaan untuk asisten digital. Semua kenyamanan yang dijanjikan itu semakin dekat dengan kenyataan sekarang, kata Hsiao. Dalam sebuah wawancara sebelum I/O dimulai, dia memberi contoh memesan pizza dengan cepat menggunakan suara Anda selama perjalanan pulang kerja dengan mengatakan sesuatu seperti, “Hei, pesan pizza dari Jumat malam lalu.” Asisten menjadi lebih komunikatif. Dan kata-kata bangun yang kikuk itu, yaitu, “Hai, Google,” perlahan-lahan akan hilang — asalkan Anda bersedia menggunakan wajah Anda untuk membuka kunci kontrol suara.

Sissie Hsiao memimpin tim Asisten Google.

Foto: Nicole Morrison

Ini adalah visi suara yang ambisius, yang menimbulkan pertanyaan tentang privasi, utilitas, dan tujuan akhir Google untuk monetisasi. Dan tidak semua fitur ini tersedia saat ini, atau dalam semua bahasa. Mereka adalah “bagian dari perjalanan panjang,” kata Hsiao.

“Ini bukan period pertama teknologi suara yang dihebohkan banyak orang. Kami menemukan pasar yang cocok untuk kelas kueri suara yang diulang-ulang oleh orang-orang,” kata Hsiao. Di cakrawala ada kasus penggunaan yang jauh lebih rumit. “Tiga, empat, lima tahun yang lalu, bisakah komputer berbicara kembali ke manusia dengan cara yang dianggap manusia sebagai manusia? Kami tidak memiliki kemampuan untuk menunjukkan bagaimana hal itu bisa dilakukan. Sekarang bisa.”

Hmm, Terganggu

Apakah dua orang yang berbicara bahasa yang sama selalu memahami satu sama lain atau tidak mungkin merupakan pertanyaan yang paling baik diajukan kepada konselor pernikahan, bukan ahli teknologi. Berbicara secara linguistik, bahkan dengan “ums”, jeda yang canggung, dan interupsi yang sering, dua manusia dapat saling memahami. Kami adalah pendengar dan penerjemah aktif. Komputer, tidak terlalu banyak.

Tujuan Google, kata Hsiao, adalah membuat Asisten lebih memahami ketidaksempurnaan dalam ucapan manusia ini dan merespons dengan lebih lancar. “Mainkan lagu baru dari…Florence…dan yang lainnya?” Hsiao mendemonstrasikan di atas panggung di I/O. Asisten tahu bahwa yang dia maksud adalah Florence dan Mesin. Ini adalah demo cepat, tetapi yang didahului oleh penelitian bertahun-tahun tentang mannequin bicara dan bahasa. Google telah melakukan peningkatan ucapan dengan melakukan beberapa pemrosesan ucapan di perangkat; sekarang menerapkan algoritme mannequin bahasa besar juga.

Mannequin pembelajaran bahasa besar, atau LLM, adalah mannequin pembelajaran mesin yang dibangun di atas kumpulan knowledge berbasis teks raksasa yang memungkinkan teknologi untuk mengenali, memproses, dan terlibat dalam interaksi yang lebih mirip manusia. Google bukan satu-satunya entitas yang mengerjakan ini. Mungkin LLM yang paling terkenal adalah OpenAI’s GPT3 dan pembuat gambar saudaranya, DALL-E. Dan Google baru-baru ini membagikan, dalam posting weblog yang sangat teknis, rencananya untuk PaLM, atau Mannequin Bahasa Pathways, yang diklaim perusahaan telah mencapai terobosan dalam tugas komputasi “yang memerlukan aritmatika multi langkah atau penalaran akal sehat”. Asisten Google Anda di Pixel atau tampilan rumah pintar Anda belum memiliki kecerdasan ini, tetapi ini adalah gambaran masa depan yang lulus uji Turing dengan sangat baik.

New Replace : [randomize]

Related Posts