Mengapa DeepMind Mengirim AI Humanoids ke Soccer Camp

“Ini tidak benar-benar berhasil,” kata Nicolas Heess, juga seorang ilmuwan riset di DeepMind, dan salah satu rekan penulis makalah dengan Lever. Karena kerumitan masalah, banyaknya pilihan yang tersedia, dan kurangnya pengetahuan sebelumnya tentang tugas tersebut, para agen tidak benar-benar tahu harus mulai dari mana—sehingga menggeliat dan berkedut.

Jadi sebagai gantinya, Heess, Lever, dan rekannya menggunakan neural probabilistic motor primitif (NPMP), sebuah metode pengajaran yang mendorong mannequin AI ke arah pola gerakan yang lebih mirip manusia, dengan harapan bahwa pengetahuan dasar ini akan membantu memecahkan masalah tentang bagaimana bergerak di sekitar lapangan sepak bola digital. “Ini pada dasarnya membiaskan kontrol motorik Anda ke perilaku manusia yang realistis, gerakan manusia yang realistis,” kata Lever. “Dan itu dipelajari dari movement seize—dalam hal ini, aktor manusia yang bermain sepak bola.”

Ini “mengkonfigurasi ulang ruang aksi,” kata Lever. Pergerakan agen sudah dibatasi oleh tubuh dan persendian mirip manusia mereka yang hanya dapat ditekuk dengan cara tertentu, dan paparan knowledge dari manusia nyata semakin membatasi mereka, yang membantu menyederhanakan masalah. “Itu membuat hal-hal yang berguna lebih mungkin ditemukan dengan coba-coba,” kata Lever. NPMP mempercepat proses pembelajaran. Ada “keseimbangan halus” yang harus dicapai antara mengajari AI untuk melakukan hal-hal seperti yang dilakukan manusia, sambil juga memberinya kebebasan yang cukup untuk menemukan solusinya sendiri atas masalah—yang mungkin lebih efisien daripada solusi yang kita buat sendiri.

Pelatihan dasar diikuti oleh latihan pemain tunggal: berlari, menggiring bola, dan menendang bola, meniru cara manusia belajar memainkan olahraga baru sebelum terjun ke situasi pertandingan penuh. Penghargaan pembelajaran penguatan adalah hal-hal seperti berhasil mengikuti goal tanpa bola, atau menggiring bola ke dekat goal. Kurikulum keterampilan ini adalah cara alami untuk membangun tugas yang semakin kompleks, kata Lever.

Tujuannya adalah untuk mendorong agen menggunakan kembali keterampilan yang mungkin telah mereka pelajari di luar konteks sepak bola dalam lingkungan sepak bola—untuk menggeneralisasi dan fleksibel dalam beralih di antara strategi gerakan yang berbeda. Agen yang telah menguasai latihan ini digunakan sebagai guru. Dengan cara yang sama AI didorong untuk meniru apa yang telah dipelajari dari penangkapan gerak manusia, AI juga dihargai karena tidak menyimpang terlalu jauh dari strategi yang digunakan agen guru dalam skenario tertentu, setidaknya pada awalnya. “Ini sebenarnya adalah parameter algoritme yang dioptimalkan selama pelatihan,” kata Lever. “Seiring waktu mereka pada prinsipnya dapat mengurangi ketergantungan mereka pada guru.”

Dengan pemain digital mereka yang terlatih, tiba saatnya untuk beberapa aksi pertandingan: dimulai dengan sport 2v2 dan 3v3 untuk memaksimalkan jumlah pengalaman yang dikumpulkan agen selama setiap putaran simulasi (dan meniru cara pemain muda memulai dengan sport sisi kecil di kehidupan nyata). Sorotan — yang dapat Anda tonton di sini — memiliki energi kacau seperti seekor anjing yang mengejar bola di taman: pemain tidak terlalu banyak berlari, tetapi tersandung ke depan, terus-menerus di ambang jatuh ke tanah. Saat gol dicetak, itu bukan dari gerakan passing yang rumit, tetapi tendangan penuh harapan ke depan dan rebound seperti bola sepak dari dinding belakang.

New Replace : [randomize]


Posted

in

by