Sea Lion โมเดลภาษา Open Source ที่เข้าใจความหลากหลายทางวัฒนธรรมของเอเชียตะวันออกเฉียงใต้

นี่คือโจทย์ใหญ่ที่ทำให้ AI Singapore เริ่มพัฒนา Sea Lion โมเดลภาษาแบบ Open Source สำหรับเอเชียตะวันออกเฉียงใต้โดยเฉพาะ โดยมี Dr. William Tjhi, Head of Applied Research of AI Singapore และ Potsawee Manakul, Senior AI Researcher, SCB 10X มาร่วมพูดคุยถึงเป้าหมายและความท้าทายในการสร้างโมเดลที่ "เข้าใจวัฒนธรรมเราเองจริงๆ"
1️⃣ ปัญหาของ AI ระดับโลก คืออะไร ?
AI ส่วนมากพัฒนาขึ้นในสหรัฐฯ และจีน และเกือบ 95% ของข้อมูลที่ใช้เรียนรู้เป็นภาษาอังกฤษ ทำให้ระบบไม่เข้าใจผู้ใช้งานท้องถิ่นในเอเชียตะวันออกเฉียงใต้ได้ดี ในขณะเดียวกันเวลาสั่งให้ AI สร้างภาพเกี่ยวกับวัฒนธรรม SEA เช่น ชุดแต่งกายหรืออาหาร ผลลัพธ์มักผิดเพี้ยนหรือจำเป็นต้องสั่งซ้ำหลายครั้ง นอกจากนี้ AI อาจให้ข้อมูลธุรกิจที่ไม่ถูกต้องหรือตอบผิดประเด็นเกี่ยวกับเมืองเล็ก ๆ ในภูมิภาค หรือไม่เข้าใจความละเอียดอ่อนทางวัฒนธรรม จนอาจตอบคำถามด้วยเนื้อหาที่ไม่สุภาพหรืออ่อนไหวได้ง่ายกว่าภาษาอังกฤษ
2️⃣ Sea Lion แก้ปัญหานี้อย่างไร ?
Sea Lion พยายามแก้ปัญหานี้ด้วย สามวิธีหลัก ดังนี้:
- ใช้ข้อมูลจริงจากภาษาและวัฒนธรรมในเอเชียตะวันออกเฉียงใต้ ควบคู่ไปกับการให้ผู้เชี่ยวชาญท้องถิ่นตรวจสอบความถูกต้อง
- ฝึกสอน AI เรื่องความเหมาะสมทางวัฒนธรรม เพื่อให้ทราบว่าควรสื่อสารหรือตอบสนองอย่างไรให้เหมาะสมกับแต่ละประเทศ
- ร่วมมือกับบริษัทในภูมิภาค เช่น SCB 10X ในไทย และ Gojek ในอินโดนีเซีย เพื่อรับฟังความเห็นจากผู้ใช้จริงว่าระบบควรตอบสนองอย่างไร
3️⃣ ความท้าทายในการสอน AI ให้เข้าใจภาษาและวัฒนธรรมเอเชียตะวันออกเฉียงใต้
การทำ AI ให้เก่งภาษาในเอเชียตะวันออกเฉียงใต้มีปัญหาใหญ่ที่ต้องเจออยู่ 2 เรื่อง
- เรื่องภาษาลูกผสม เช่น ในสิงคโปร์มี 'Singlish' ที่เอาภาษาจีน มลายู อังกฤษมาผสมกัน หรือที่ฟิลิปปินส์ก็มี 'Taglish' ซึ่งการจะสอนให้ AI เข้าใจและพูดภาษาเหล่านี้เป็นธรรมชาติเหมือนที่คนในภูมิภาคพูด เป็นเรื่องที่ท้าทายและยากอยู่
- เครื่องมือวัดผล AI ทั่วไปใช้ไม่ได้กับภูมิภาคนี้ เนื่องจากไม่มีข้อสอบมาตรฐาน หรือเครื่องมือกลาง ๆ ที่ใช้วัดความเข้าใจภาษาในเอเชียตะวันออกเฉียงใต้ได้ จึงจำเป็นต้องสร้างชุดการวัดผลใหม่ขึ้นมาเอง ชุดวัดผลนี้มีชื่อว่า 'Seahound' โดยใช้ผู้เชี่ยวชาญภาษามาช่วยกำหนดเกณฑ์การให้คะแนน
4️⃣ Sea Lion ก้าวสู่โมเดล Multimodal เข้าใจภาพในบริบทเอเชียตะวันออกเฉียงใต้
Sea Lion ได้เพิ่มขีดความสามารถแบบ Multimodal คือสามารถ เข้าใจข้อความและภาพถ่ายร่วมกัน การพัฒนานี้มีเป้าหมายเพื่อแก้ปัญหาการสร้างภาพที่ขาดความเข้าใจวัฒนธรรม SEA โดยเน้นที่ "การเข้าใจภาพ" เป็นหลัก เพื่อนำไปใช้ประโยชน์สำคัญในภูมิภาค
- ด้านการท่องเที่ยว/วัฒนธรรม/อาหาร: ใช้ทำความเข้าใจภาพถ่ายโบราณสถาน อาหาร หรือแนะนำสิ่งที่ควรรับประทานคู่กัน
- ด้านความปลอดภัย: สิ่งสำคัญที่สุดคือการใช้ความสามารถนี้เพื่อคัดกรองภาพที่ไม่เหมาะสมทางวัฒนธรรม ซึ่งเป็นเรื่องที่ละเอียดอ่อนและจำเป็นสำหรับหลายประเทศในอาเซียน
5️⃣ ก้าวต่อไปของ Sea Lion และ AI Singapore (ปี 2025-2026)
ในปี 2025-2026 แผนงานของ Sea Lion และ AI Singapore มุ่งเน้น 4 ด้านหลัก ได้แก่ ความร่วมมือ การสร้างมูลค่า ความปลอดภัย และประสิทธิภาพของทรัพยากร
ความร่วมมือ: ขยายงานร่วมกับผู้เล่นระดับโลก เช่น Google และประเทศใน SEA เช่น ฟิลิปปินส์ เพื่อรวมทรัพยากรและความเชี่ยวชาญ
การสร้างมูลค่า: พัฒนาแอปพลิเคชันในด้านโครงสร้างพื้นฐาน สาธารณสุข การศึกษา และสาธารณประโยชน์
ความปลอดภัย: ปรับแนวทาง และรับมือการโจมตีแบบ Adversarial เพื่อให้โมเดลน่าเชื่อถือ
ประสิทธิภาพของทรัพยากร: ผลักดันให้โมเดลมี ขนาดเล็กลง เพื่อเพิ่มประสิทธิภาพการใช้ทรัพยากร ซึ่งเป็นความต้องการสำคัญของภูมิภาค SEA
อนาคตของ AI: พลังแห่งความร่วมมือ เหนือกว่าการแข่งขัน
AI ท้องถิ่นควรร่วมมือกัน แทนที่จะแข่งขัน โดย LLM ระดับโลกช่วยในด้านเหตุผลและการเขียนโค้ด ส่วน LLM ระดับภูมิภาคช่วยเพิ่มความเข้าใจวัฒนธรรม ทำให้ผลิตภัณฑ์เข้าถึงผู้ใช้ได้ดีขึ้น Sea Lion คือความพยายามของภูมิภาคเราที่จะสร้าง AI ที่ ฉลาดเท่า AI ระดับโลก แต่เข้าใจชีวิตและวัฒนธรรมแบบเอเชียตะวันออกเฉียงใต้ได้จริง
รับชมเนื้อหาทั้งหมดได้ที่ https://youtu.be/kS44VoIZT3Y?si=zQqfcsjHioa8A_GO





