The Era of Embodied AI เจาะลึกเบื้องหลังสมองกล เมื่อหุ่นยนต์ยุคใหม่เรียนรู้ที่จะเข้าใจโลกกายภาพ
ไฮไลต์จากบทสนทนากับ Dr. Benjamin Eisner ซึ่งเป็น ML/Robotics Researcher จาก Carnegie Mellon University (CMU) สถาบันระดับโลกด้านวิทยาการคอมพิวเตอร์ เพื่อเจาะลึกวิวัฒนาการของการสร้างสมองให้กับหุ่นยนต์ จากยุคที่ขับเคลื่อนด้วยสมการคณิตศาสตร์ สู่ยุคที่หุ่นยนต์เรียนรู้ได้เองแบบ End-to-End และพาไปสำรวจว่าทำไมเรื่องง่ายๆ ของมนุษย์อย่างการพับผ้าถึงกลายเป็นโจทย์หินระดับโลกของหุ่นยนต์
"นี่คือช่วงเวลาที่น่าตื่นเต้นที่สุดของวงการหุ่นยนต์เท่าที่ผมเคยเห็นมา ไม่ใช่แค่เพราะความก้าวหน้าของเทคโนโลยี แต่เพราะทั่วโลกเริ่มหันมาให้ความสนใจอย่างจริงจัง เราเริ่มเห็นผลลัพธ์ที่น่าทึ่งและการนำไปประยุกต์ใช้ในเชิงพาณิชย์ที่เป็นรูปธรรมมากขึ้น"
วิวัฒนาการของการหุ่นยนต์
Dr. Benjamin เริ่มต้นด้วยการย้อนกลับที่รากฐานของวิทยาการหุ่นยนต์ โดยจะพบว่าในอดีต การสร้างหุ่นยนต์สักตัวไม่ใช่เรื่องของ AI แต่เป็นเรื่องของวิศวกรรมและฟิสิกส์ล้วนๆ ในยุคแรกเริ่ม หรือที่เราอาจเรียกว่ายุค Modular Design การทำงานของหุ่นยนต์ถูกขับเคลื่อนด้วยทฤษฎีการควบคุม (Control Theory) และสมการฟิสิกส์ที่มนุษย์เขียนขึ้นอย่างตายตัว ระบบจะถูกแยกส่วนการทำงานชัดเจน ระหว่างการรับรู้ การวางแผน และการสั่งการ วิธีการนี้ประสบความสำเร็จอย่างสูงในสภาพแวดล้อมที่ควบคุมได้และคาดเดาได้ เช่น แขนกลในสายการผลิตรถยนต์ที่ทำหน้าที่เดิมซ้ำๆ ด้วยความแม่นยำระดับมิลลิเมตร แต่มีข้อจำกัด คือ ไม่สามารถรับมือกับความเปลี่ยนแปลงได้ หากสภาพแวดล้อมเปลี่ยนเพียงเล็กน้อย ระบบอาจล้มเหลวทันที
เมื่อเวลาผ่านเข้าสู่ช่วง 10-15 ปีที่ผ่านมา เราเริ่มเห็นการเปลี่ยนแปลงเข้าสู่ยุคไฮบริด โดยมีการนำ Machine Learning เข้ามาผสมผสาน ตัวอย่างที่ชัดเจนคือวิวัฒนาการของรถยนต์ไร้คนขับ บริษัทเทคโนโลยีชั้นนำอย่าง Waymo เริ่มนำ Deep Learning เข้ามาแก้ปัญหาในส่วนของการรับรู้ เพื่อให้รถยนต์สามารถแยกแยะต้นไม้ ผู้คน หรือรถคันอื่นบนท้องถนนได้ แต่ในส่วนของสมองกลที่ใช้ในการตัดสินใจและควบคุมรถนั้น โดยพื้นฐานแล้วยังคงพึ่งพาระบบ Model-based แบบดั้งเดิมอยู่
แต่จุดเปลี่ยนที่แท้จริงเกิดขึ้นในช่วง 5 ปีหลังนี้ เมื่อเทคโนโลยี AI ก้าวกระโดดจนนำไปสู่แนวคิด End-to-End System ซึ่งเป็นการใช้โครงข่ายประสาทเทียม (Neural Network) ขนาดใหญ่เข้ามาควบคุมกระบวนการทั้งหมด ตั้งแต่การรับภาพจากกล้องไปจนถึงการสั่งการมอเตอร์ให้เคลื่อนไหว โดยไม่ต้องพึ่งพาสมการฟิสิกส์ที่มนุษย์เขียนกำกับไว้ทีละขั้นตอน
สาเหตุที่โลกหุ่นยนต์ต้องมุ่งมาสู่ระบบ End-to-End นั้น Dr. Benjamin อธิบายว่าเป็นเพราะ
‘โลกความจริงนั้นซับซ้อนเกินกว่าที่สมการฟิสิกส์จะอธิบายได้หมด’
โดยเฉพาะปัญหาเรื่องแรงเสียดทานและการสัมผัสวัตถุ ลองจินตนาการถึงการให้หุ่นยนต์พับผ้า หรือหยิบจับวัตถุที่ลื่นไหลอย่างทราย การเขียนโค้ดเพื่อคำนวณแรงกระทำต่อวัตถุที่เปลี่ยนรูปได้ตลอดเวลานั้นแทบจะเป็นไปไม่ได้ในทางปฏิบัติ ระบบ End-to-End จึงเข้ามาปลดล็อกขีดจำกัดนี้ โดยอนุญาตให้ AI เรียนรู้ฟิสิกส์เหล่านั้นด้วยตัวเองผ่านข้อมูลแทนการป้อนคำสั่ง
อย่างไรก็ตาม Dr. Benjamin ย้ำว่า Modular Design ยังไม่ตาย หากเป็นงานที่มีโครงสร้างชัดเจนและต้องการความชัวร์ 100% เช่น การผลิตสบู่ 100 ก้อนต่อนาทีในโรงงาน การใช้ระบบเดิมยังคงดีกว่า เพราะตรวจสอบได้ และแม่นยำกว่าระบบ AI ที่บางครั้งเราก็ไม่รู้ว่ามันคิดอะไรอยู่
กระบวนการเลียนแบบและลองผิดลองถูกของหุ่นยนต์
เมื่อหุ่นยนต์ต้องเรียนรู้เอง คำถามคือเราจะสอนมันอย่างไร? Dr. Benjamin เปรียบเทียบสองกระบวนการหลักที่ใช้อยู่ในปัจจุบัน
แบบแรกคือ Imitation Learning หรือการเรียนรู้ผ่านการเลียนแบบ วิธีนี้เปรียบเสมือนการให้หุ่นยนต์ดูวิดีโอสาธิตการกระทำของมนุษย์ แล้วพยายามทำตาม ข้อดีคือหุ่นยนต์สามารถเรียนรู้ท่าทางพื้นฐานได้อย่างรวดเร็ว แต่ข้อเสียเปรียบสำคัญคือ หุ่นยนต์จะขาดความเข้าใจในเชิงลึก เหมือนกับคนที่ดูวิดีโอสอนเล่นเทนนิสจนจำท่าทางได้ แต่เมื่อลงสนามจริงกลับกะจังหวะหรือแรงโต้ตอบไม่ได้ เพราะไม่เคยได้รับ Feedback จากการตีลูกจริงๆ
แบบที่สองคือ Reinforcement Learning (RL) หรือการเรียนรู้แบบเสริมแรง ซึ่งเปรียบได้กับการปล่อยให้หุ่นยนต์ลงไปลองผิดลองถูกด้วยตัวเอง หากทำสำเร็จก็ได้รางวัล หากล้มเหลวก็ถูกทำโทษ วิธีนี้จะช่วยให้หุ่นยนต์เกิดความเชี่ยวชาญ (Mastery) อย่างแท้จริง แต่แลกมาด้วยต้นทุนที่สูงมาก ทั้งในแง่ของเวลาและทรัพยากร เพราะกว่าหุ่นยนต์จะเก่ง มันอาจต้องล้มเหลวนับล้านครั้ง ซึ่งหากเป็นการทดลองกับหุ่นยนต์กายภาพจริงๆ ความเสียหายที่เกิดขึ้นคงเป็นเรื่องที่รับได้ยาก
ทางออกของปัญหานี้ในปัจจุบัน จึงเป็นการผสมผสานทั้งสองวิธีเข้าด้วยกัน (Hybrid Approach) คล้ายกับวิธีการเทรน ChatGPT โดยเริ่มจากการใช้ Imitation Learning เพื่อปูพื้นฐานให้หุ่นยนต์มีความเข้าใจเบื้องต้นก่อน จากนั้นจึงใช้ Reinforcement Learning เข้ามาช่วยปรับจูน ทักษะเหล่านั้นให้แม่นยำและเฉียบคมยิ่งขึ้น
เมื่อหุ่นยนต์เริ่มมี จินตนาการ และ ความเข้าใจ
หนึ่งในไฮไลต์สำคัญคือการพูดถึงงานวิจัยของ Dr. Benjamin ที่ชื่อว่า FlowBot3D และ TaxPost ซึ่งพยายามแก้ปัญหาเรื่องความเข้าใจและสามัญสำนึกในบริบทของหุ่นยนต์
FlowBot3D สอนให้เข้าใจความเป็นไปได้
ปกติหุ่นยนต์อาจถูกสอนให้รู้จักว่า ‘สิ่งนี้คือประตู’ แต่ FlowBot3D ก้าวไปไกลกว่านั้น คือสอนให้หุ่นยนต์เข้าใจกลไกการทำงานของวัตถุ (Articulated Objects) ผ่านการมองเห็น ทีมวิจัยฝึกให้หุ่นยนต์วิเคราะห์รูปทรงเรขาคณิต เช่น เมื่อเห็นบานพับหรือด้ามจับ หุ่นยนต์จะเกิด ‘จินตนาการทางฟิสิกส์’ ว่าวัตถุนี้สามารถขยับได้อย่างไร ทิศทางไหน ทำให้หุ่นยนต์สามารถเปิดตู้ เตาอบ หรือประตูในสถานที่ที่ไม่เคยไปมาก่อนได้ทันทีโดยไม่ต้องเขียนโปรแกรมสั่งงานล่วงหน้า
TaxPost สอนให้เข้าใจความสัมพันธ์เชิงพื้นที่
หาก FlowBot3D คือการเเข้าใจกลไกการทำงานของวัตถุ งานวิจัย TaxPost คือการตอบคำถามว่า ‘ควรทำอย่างไร’ โดยเรียนรู้จากการสังเกตมนุษย์ เช่น การเก็บจาน มนุษย์ไม่ได้แค่วางจานลงไปเฉยๆ แต่มนุษย์จะวางจานซ้อนกันเป็นตั้ง หุ่นยนต์จึงต้องเรียนรู้ความสัมพันธ์เชิงพื้นที่ (Spatial Relationship) เหล่านี้ เพื่อให้สามารถทำงานร่วมกับมนุษย์ได้อย่างเป็นธรรมชาติและมีความหมาย
Sim-to-Real Gap และวิกฤตขาดแคลนข้อมูล
แม้ AI จะฉลาดแค่ไหน แต่เมื่อต้องมาอยู่ในร่างหุ่นยนต์ ความท้าทายที่ใหญ่ที่สุดคือ Sim-to-Real Gap หรือช่องว่างระหว่างโลกจำลองกับโลกจริง Dr. Benjamin อธิบายว่าแม้เราจะมี Simulator ที่ดีขึ้นมาก แต่การจำลองฟิสิกส์ระดับจุลภาค เช่น แรงสัมผัส แรงเสียดทาน หรือแม้กระทั่งความหน่วง ของมอเตอร์เมื่อได้รับคำสั่ง ยังเป็นสิ่งที่ทำได้ไม่สมบูรณ์แบบ หุ่นยนต์ที่เก่งมากในโปรแกรมจำลอง จึงมักกลายเป็นหุ่นยนต์ที่อาการติดขัดเมื่อเจอของจริง
นอกจากนี้ เรายังเผชิญกับปัญหาการขาดแคลนข้อมูล ซึ่ง Dr. Benjamin ปรียบเทียบให้เห็นภาพผ่านสามเหลี่ยมข้อมูล
ฐานล่าง ประกอบไปด้วย ข้อมูลจากอินเทอร์เน็ต (YouTube, ภาพถ่าย) มีมหาศาลแต่ใช้ควบคุมหุ่นยนต์โดยตรงไม่ได้ ชั้นกลาง คือ ข้อมูลจาก Simulation สร้างได้เยอะและช่วยเรื่องความหลากหลายของภาพ (Visual Diversity) แต่ขาดความสมจริงทางฟิสิกส์ และ ยอดพีระมิด คือ Real-world Data ซึ่งเป็นส่วนที่สำคัญที่สุดสำหรับการปิดจบงาน แต่เป็นส่วนที่มีน้อยที่สุดและหายากที่สุด
ปัจจุบัน หลายบริษัทพยายามแก้ปัญหานี้ด้วยการสร้างฟาร์มหุ่นยนต์ ที่ใช้มนุษย์ควบคุมระยะไกลตลอด 24 ชั่วโมง เพื่อเก็บข้อมูลการเคลื่อนไหวที่ถูกต้องและนำมาใช้สอน AI
หุ่นยนต์จะไปอยู่ที่ไหนในอีก 3-5 ปี?
เมื่อถามถึงการนำไปใช้จริง Dr. Benjamin มองว่าเราจะยังไม่เห็นหุ่นยนต์แม่บ้านแบบในการ์ตูน The Jetsons ที่ทำได้ทุกอย่างในเร็วๆ นี้ แต่เราจะได้เห็น Embodied AI เข้าไปแทรกซึมใน 2 พื้นที่หลัก
อุตสาหกรรมและโลจิสติกส์
หุ่นยนต์จะไม่ได้ทำแค่ยกของหนัก แต่จะมีความคล่องแคล่วมากขึ้น สามารถจัดการกับวัตถุปราบเซียนของหุ่นยนต์ยุคเก่าได้ เช่น การหยิบถุงพลาสติกที่ย้วยไปมา การแกะกล่อง หรือการหยิบจับพืชผลทางการเกษตร ซึ่งจะช่วยเติมเต็มช่องว่างในกระบวนการผลิตที่เดิมต้องใช้คนเท่านั้น
ตลาดผู้บริโภค
หุ่นยนต์จะเริ่มเข้าสู่บ้านในฐานะของเล่นไฮเทคหรือผู้ช่วยเฉพาะทาง เช่น หุ่นยนต์ช่วยเก็บของเล่นเด็ก หรือหุ่นยนต์ที่มีแขนกลง่ายๆ ติดอยู่บนฐานเคลื่อนที่ แม้จะยังทำงานบ้านซับซ้อนอย่างการล้างจานหรือพับผ้าไม่ได้สมบูรณ์แบบ แต่จะเป็นจุดเริ่มต้นที่ทำให้คนทั่วไปคุ้นเคยกับการมีหุ่นยนต์เดินไปมาในบ้าน
การสนทนากับ Dr. Benjamin Eisner ในครั้งนี้ทำให้เห็นว่ายุคของ Embodied AI ไม่ใช่แค่การอัปเกรดซอฟต์แวร์ AI แต่คือการปฏิวัติวิธีที่คอมพิวเตอร์มีปฏิสัมพันธ์กับโลกกายภาพ จากระบบที่ทำตามคำสั่งอย่างเคร่งครัด สู่ระบบที่เรียนรู้ ปรับตัว และเข้าใจฟิสิกส์ของโลกด้วยประสบการณ์ของตัวเอง และแม้หนทางข้างหน้าจะยังมีความท้าทายรออยู่ แต่ทิศทางของนวัตกรรมก็ชี้ชัดแล้วว่า หุ่นยนต์ในอนาคตอันใกล้ จะมีความเป็นมนุษย์ในแง่ของการเรียนรู้และการขยับตัว มากกว่าที่เราเคยจินตนาการไว้
รับชมเนื้อหาทั้งหมดได้ที่นี่: https://youtu.be/SXFZc5d0bGs?si=GSfU3XtZ7BK7LAON





