Bangkok AI Hack 2023 : Workshop 2 with VISTEC
พาชมบรรยากาศเตรียมความพร้อมให้กับผู้เข้าแข่งขัน ‘Bangkok AI Hack 2023’ กับ Workshop หัวข้อ "Navigating the World of Transformers: Modern Language Models, Fine-Tuning, and the Magic of Prompting in NLP" โดย ‘VISTEC’
อีกหนึ่ง Workshop เตรียมความพร้อมให้ผู้เข้าแข่งขัน Hackathon ในงาน ‘Bangkok AI Hack 2023’ ที่ SCB 10X ร่วมกับพันธมิตรด้าน AI และบริษัทเทคโนโลยีระดับโลก แข่งขันระหว่างวันที่ 11 - 19 พฤศจิกายน 2566 ณ DISTRICTX อาคาร FYI Center หลังจากผ่าน Workshop แรกที่เน้นเรื่องการเรียนรู้อย่างเข้มข้นกับหัวข้อ “How To Learn Anything” กันไปแล้ว มาต่อกัน Workshop ที่ 2 ที่เน้นให้ทดลองทำจริงกันบ้าง ในหัวข้อ "Navigating the World of Transformers: Modern Language Models, Fine-Tuning, and the Magic of Prompting in NLP" นำ Workshop โดย ‘VISTEC’ ที่พาเจาะลึก ส่วนสำคัญของโลก AI อย่าง “Transformer” ที่เกี่ยวข้องกับการพัฒนาโมเดลภาษาขนาดใหญ่ ตั้งแต่กระบวนการฝึกและการป้อนคำสั่งเพื่อช่วยเสริมความรู้และเทคนิคสำคัญให้กับผู้เข้าแข่งขัน
Workshop นี้มุ่งเน้นให้ผู้เข้าแข่งขันเรียนรู้ผ่านการทดลองเขียนโค้ดจริง และการบรรยายหลักให้ความสำคัญกับการพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) กับภาษาที่เป็น Low-Resource ซึ่งเป็นส่วนของ Track 1 (Model Layer) ในการแข่งขัน และเป็นเนื้อหาที่เกี่ยวเนื่องต่อจากวัน Matching Day ก่อนหน้านี้ โดยที่เป็นการขยายต่อด้วยการฝึกทางเทคนิคและเน้นการปฏิบัติจริง ซึ่งการบรรยาครอบคลุมประเด็นทางเทคนิคต่างๆ รวมถึงการจัดเตรียมข้อมูล การกำหนดค่าโมเดล และพารามิเตอร์การฝึก ซึ่งมีการนำเสนอข้อมูลเชิงลึกเกี่ยวกับการปรับแต่งโมเดลอย่างละเอียดสำหรับการจัดประเภทข้อความโดยใช้ “WangchanBERTa” ที่พัฒนาขึ้นในปี 2021 ด้วยความร่วมมือระหว่าง VISTEC และ PyThaiNLP เป็นตัวอย่างครั้งนี้
เจาะลึกอย่างละเอียดเตรียมความพร้อมที่ครอบคลุมตั้งแต่การตรวจสอบความพร้อมของ GPU และการนำเข้าโมดูลที่จำเป็น ไปจนถึงการกำหนดฟังก์ชันการประเมินสำหรับการตรวจสอบประสิทธิภาพของโมเดลระหว่างการฝึก และกระบวนการปรับแต่งอย่างละเอียดที่เกี่ยวข้องกับการกำหนดพารามิเตอร์ การดาวน์โหลดชุดข้อมูลจาก Hugging Face และการดำเนินการประมวลผลล่วงหน้า อีกทั้งผู้บรรยายได้เน้นย้ำถึงความสำคัญของการเข้ารหัสข้อมูลในรูปแบบตัวเลขโดยใช้ Tokenization และอธิบายบทบาทของ Token ในการประมวลผลภาษาไทย
ผู้บรรยายอธิบายกระบวนการฝึกแบบจำลองที่ใช้ตัวเข้ารหัส โดยเน้นความสำคัญของการประมวลผลล่วงหน้าและการเลือกพารามิเตอร์ รวมถึงแนะนำให้ประเมินแบบจำลองเป็นระยะๆ เพื่อป้องกันความผิดพลาดที่อาจเกิดขึ้น และมีการหารือกันเกี่ยวกับกระบวนการใช้ฟังก์ชันตัวฝึกสำหรับการทำนายและรายละเอียดต่างๆ เพื่อใช้ประเมินในระหว่างแข่งขัน Hackathon
จากนั้นปรับโหมดไปสู่การเรียนรู้ในการจัดหมวดหมู่ข้อความ (Text Classification) อย่างเช่นแนะนำผู้เข้าแข่งขันผ่านการโหลดโมเดลที่ใช้ตัวถอดรหัส (Decoder-Based Model) การตั้งค่าโหมดการประเมินผล และการรับรองความเข้ากันได้ของโทเคน ไปจนถึงการใช้ CUDA Runtime และรูปแบบของคำสั่งหรือ Prompt โดยทำการทดลองกับ Prompt ที่แตกต่างกัน
มาจนถึงการอธิบายเกี่ยวกับการจำแนกโทเคน (Token Classification) สำหรับ Named Entity Recognition (NER) ในการประมวลผลภาษาธรรมชาติ ซึ่งอธิบายถึงกระบวนการทำนายหมวดหมู่ข้อความของแต่ละโทเคน เช่น การระบุถึงบุคคล และสถานที่ ไปจนถึงเรื่องของจุดบกพร่องในชุดข้อมูลที่ให้เห็นความสำคัญของการตรวจสอบและแก้ไขปัญหาดังกล่าวในระหว่างการแข่งขัน
เรียกได้ว่าเป็นอีก Workshop ที่เตรียมความพร้อมกันแบบเจาะลึก ปิดท้ายอย่างเข้มข้นด้วยเนื้อหาที่ครอบคลุมเกี่ยวอย่างเช่น NER และการเรียนรู้การจัดหมวดหมู่ข้อความ การจัดระดับโทเคน การจัดการเอนทิตีที่ต่อเนื่องกัน การปรับแต่ง Prompt รวมถึงความสามารถในการปรับปรุงการทำนายแบบจำลองโดยการกำหนดฟังก์ชันการเปลี่ยนแปลงและการจำกัดการคาดการณ์ พร้อมคำแนะนำที่ตั้งใจสนับสนุนให้ผู้เข้าแข่งขันได้พิจารณาถึงเทคนิคและแนวทางต่างๆ ใน Workshop เพื่อให้มีความพร้อมสำหรับการแข่งขันต่อไป