Mata Robot Kembangan MIT Ini Bisa Melihat dan Analisis Seperti Manusia

Nationalgeographic.co.id—Robot memanglah alat bantu manusia, tetapi ia belum sempurna, termasuk bagaimana matanya memproses objek di depannya yang lebih dari satu benda. Untuk itulah, ilmuwan harus meneliti, memperbarui, dan mengembangkan mereka agar lebih sempurna dalam membantu menyelesaikan urusan, sebagaimana manusia bisa melakukannya.

Penglihatan robot sangat bertentangan dengan akal sehat kita. Kita bisa lihat bagaimana mobil komputer yang bisa mengemudi otomatis, sering gagal mendeteksi keadaan darurat seperti adanya pejalan kaki yang menyeberang jalan, atau mana objek terdekat sebenarnya saat mundur ke belakang.

Untuk itu, perlu ada kerangka kerja yang membantu mesin ini seperti yang dilakukan para peneliti dari Massachusetts Institute of Technology (MIT), Amerika Serikat. Mereka menggunakan sistem kecerdasan buatan (AI), supaya robot atau mesin apapun yang membutuhkan penglihatan, bisa menganalisis objek dunia nyata hanya dari beberapa gambar, dan memahami gerak apa saja bila objek digunakan.

Tim peneliti yang dipimpin Nishad Gothoskar, kandidat PhD teknik elektro dan ilmu komputer itu, menulis temuan dalam makalah laporan di ArXiv, Oktober 2021.

Agar penglihatan robot optimal, mereka harus membuat kerangka kerjanya dengan pemrograman probabilistik, pendekatan AI yang memungkinkan sistem untuk memeriksa secara silang objek yang terdeteksi. Tujuannya agar gambar yang direkam dalam kamera benar-benar cocok, atau tidak dengan perilaku yang akan diambil.

Pemrogram ini juga memungkinkan sistem menyimpulkan keputusan terkait hubungan dari objek yang ditatap, dengan adegan, dan menggunakan alasan yang masuk akal tentang menyimpulkan posisinya yang lebih akurat. Sebelumnya, banyak robot seperti kamera AI di ponsel, sebelumnya gagal mendeteksi seberapa dalam suatu objek untuk difokuskan.

Ada pun, inferensi probabilistik dipasang memungkinkan sistem untuk mendeteksi bila ada ketidakcocokan kemungkinan, antara disebabkan derau atau kesalahan dalam interpretasi adegan yang perlu diperbaikan dengan proses lebih lanjut.

"Jika Anda tidak tahu tentang hubungan bersinggungan, maka Anda bisa menganggapnya seperti sebuah objek melayang di atas meja—itu akan menjadi penjelasan yang valid. Sebagai manusia, jelas bagi kita bahwa ini secara fisik tidak realistis dan objek yang diletakkan di atas meja adalah pose objek yang lebih mungkin," terang Gothoskar dalam rilis.

"Karena sistem penalaran kita mengetahui jenis pengetahuan ini, ia dapat menyimpulkan pose yang lebih akurat. Itu adalah wawasan kunci dari pekerjaan ini."

Rekan peneliti Marco Cusumano-Towner menambahkan, "Pemrograman probabilistik memungkinkan kita untuk menuliskan pengetahuan kita tentang beberapa aspek dunia dengan cara yang dapat diinterpretasikan oleh komputer, tetapi pada saat yang sama, memungkinkan kita untuk mengungkapkan apa yang tidak kita ketahui, ketidakpastian."

"Jadi, sistem bisa belajar dari data secara otomatis dan juga otomatis mendeteksi ketika aturan tidak berlaku."

Fitur yang membantu sistem pemrograman itu adalah 3D Scene Percepetion via Probabilistic Programming (3DP3), dengan gambaran bahwa penglihatan komputer dianggap sebagai 'kebalikan' dari grafik komputer'. Fitur ini mengkodekan pengetahuan yang telah dipelajari sebelumnya tentang adegan 3D.

Tiga rangkaian di atas adalah penampakan yang kita lihat dengan mata kita. Kemudian di baris kedua, cara robot memberikan prediksi pose objek tertentu yang kurang akurat. Sementara baris ketiga, dengan 3DP3, pose objek sesuai dengan input gambar. (Nishad Gothoskar et al/MIT)

Misal, 3DP3 'tahu' bahwa adegan terdiri dari objek yang berbeda di depan, dan objek ini sering kali diletakkan sejajar di atas satu sama lain. Hal ini memungkinkan model untuk bernalar tentang suatu adegan yang lebih masuk akal terhadap objek.

Kemudian, untuk menganalisis gambar suatu adegan, 3DP3 jadi yang terlebih dulu mempelajari kumpulan objek itu, dari lima sudut yang berbeda. Lalu fitur itu memperkirakan volume yang akan ditempatinya di dalam satu ruang.

"Jika saya menunjukkan sebuah objek dari lima perspektif yang berbeda, Anda dapat membangun gambaran yang cukup baik dari objek itu," ujar Gothoskar. "Anda akan memahami warna, bentuknya, dan Anda akan dapat mengenali objek itu dalam banyak adegan berbeda."

Para peneliti kemudian membandingkan model dengan 3DP3, dengan yang menggunakan sistem deep learning, untuk memperkirakan pose objek 3D dalam sebuah adegan. Hasilnya, modul dengan 3DP3 lebih akurat dan jauh lebih baik dari yang tidak, termasuk ketika objek 3D itu terhalang oleh objek lain.

Pada deep learning, model melihat objek seperti mangkuk di atas meja, tetapi pemfokusan mangkuk membuatnya terlihat melayang di atas meja. Hal itu tidak terjadi pada 3DP3, yang memahami adanya hubungan bersinggungan, dan dapat melihat 'melayang' adalah hal yang tidak masuk akal, sehingga dapat mengkoreksi dan menyelaraskan mangkuk tepat di atas meja.

Penulis	:	Afkar Aristoteles Mukhaer
Editor	:	Mahandis Yoanata Thamrin

Mata Robot Kembangan MIT Ini Bisa Melihat dan Analisis Seperti Manusia

Robot

AI

Kecerdasan buatan