ฟาร์มหุ่นยนต์ของ Google ใช้ Deep Learning ฝึกหยิบของ

google-grasping-deep-learning

สิ่งหนึ่งที่แยกการกระทำของมนุษย์และหุ่นยนต์ได้ชัดเจนคือ หุ่นยนต์จะใช้กระบวนการ รับรู้-วางแผน-ลงมือทำ ซึ่งหลายครั้งหากการรับรู้สิ่งแวดล้อมมีความคาดเคลื่อน การวางแผนและลงมือปฏิบัติก็ย่อมผิดพลาดตาม ต่างจากมนุษย์ที่เคลื่อนไหวอย่างรวดเร็วและปฏิกิริยาตอบสนองต่อผลลัพธ์ที่ได้ โดยมีการวางแผนล่วงหน้าน้อยมาก การใช้ปฏิกิริยาตอบสนองทำให้แก้ไขความผิดพลาดจากการรับรู้ผิดพลาดหรือความคาดเคลื่อนจากสิ่งรบกวนได้ดีกว่า หากเราสอนให้หุ่นยนต์ใช้วิธีการเดียวกับมนุษย์ หุ่นยนต์ก็จะทำงานในสภาพแวดล้อมที่ไม่ได้เตรียมไว้ล่วงหน้าได้ดีขึ้น

ยกตัวอย่างการตีเทนนิส ผู้ตีจะสังเกตการเคลื่อนที่ของลูกเทนนิสตลอดเวลา และปรับการเคลื่อนไหวของมือและไม้เพื่อให้ตีโดนลูก ในการพัฒนาหุ่นยนต์ก็มีการใช้เทคนิคการติดตามและควบคุม (ตัวอย่างเช่น ใช้กล้องมองวัตถุแล้วให้แขนหุ่นยนต์เคลื่อนที่ตาม) แต่ความท้าทายยังอยู่ที่ว่าจะวิเคราะห์หาสัญญาณบ่งชี้ที่ดีจากข้อมูลที่ได้รับเข้าเพื่อนำไปปฏิบัติต่ออย่างไร นักวิจัยของ Google จึงได้ทำการทดลองให้หุ่นยนต์เรียนรู้ในการหยิบจับสิ่งของจริง ๆ ที่วางระเกะระกะอยู่ โดยใช้ข้อมูลจากกล้อง

เด็กสามารถเรียนรู้จะที่หยิบจับของได้ตั้งแต่อายุ 1 ขวบ และหยิบจับได้ดีเมื่ออายุ 4 ขวบ แต่ข้อได้เปรียบของหุ่นยนต์คือหากใช้หุ่นยนต์หลาย ๆ ตัวเรียนรู้ไปพร้อม ๆ กัน หุ่นยนต์แต่ละตัวสามารถแลกเปลี่ยนข้อมูลระหว่างกันได้ ทำให้ลดเวลาการเรียนรู้ลงได้ นักวิจัยของ Google ได้ใช้แขนหุ่นยนต์ 14 ตัว ในการเรียนรู้ที่จะหยิบข้าวของเครื่องใช้ในบ้านและในสำนักงาน

เริ่มแรกการหยิบจะค่อนข้างเป็นไปแบบสุ่ม ความสำเร็จมีค่อนข้างต่ำ แต่ผลลัพธ์ที่ได้ในแต่ละวันจะถูกนำไปฝึกผ่าน Deep Convolutional Neural Network (CNN) เพื่อเรียนรู้ที่จะคาดเดาผลสำเร็จของการหยิบเมื่อทราบข้อมูลภาพที่ได้มาและคำสั่งควบคุมแขนกล ผลการเรียนรู้จะถูกนำไปโปรแกรมให้หุ่นยนต์ควบคุมการเคลื่อนที่ไปในทิศทางที่เพิ่มโอกาสความสำเร็จในการหยิบมากที่สุด อาจเปรียบได้ว่าเป็นการประสานงานกันระหว่างตาและมือ (hand-eye coordination)

หลังการฝึกกว่า 800,000 ครั้ง ใช้เวลาไป 3,000 ชั่วโมง-หุ่นยนต์ จะสังเกตได้ว่าหุ่นยนต์มีพฤติกรรมที่ใช้ปฏิกิริยาตอบสนองในการหยิบ และมีพฤติกรรมที่น่าสนใจอย่างอื่นเช่น มีการเขี่ยของที่หยิบออกมาอยู่เดี่ยว ๆ ให้หยิบง่าย พฤติกรรมเหล่านี้เกิดการการเรียนรู้ทั้งหมด ไม่ได้มีการโปรแกรมไว้ล่วงหน้า

เพื่อประเมินผล มีการทดลองเปรียบเทียบระหว่างการหยิบที่ใช้ปฏิกิริยาตอบสนองแบบที่เรียนรู้มากับการหยิบแบบรับรู้-วางแผน-ปฏิบัติ (คล้ายงานวิจัยที่ Cornell) ผลปรากฏว่าการหยิบแบบเดิม 30 ครั้ง มีโอกาสพลาดถึง 34% เมื่อเทียบกับการหยิบแบบใหม่ที่มีโอกาสพลาดลดลงเหลือเพียง 18%

เห็นได้ว่าเทคนิคที่ใช้ในการฝึกหุ่นยนต์หยิบของนี้คล้ายกับเทคนิคที่ใช้ใน AlphaGo AI ที่เอาชนะเซียนโกะได้ คือมีการใช้ deep learning ในส่วนการประเมินความสำเร็จในกิจกรรมที่ทำ นี่เป็นตัวอย่างหนึ่งที่แสดงให้เห็นประโยชน์ของการใช้ deep learning ฝึกปัญญาประดิษฐ์ในงานที่เราไม่สามารถโปรแกรมเข้าไปได้ตรง ๆ

ภาพและที่มา Google Research Blog

LINE it!