milkyway 6
milkyway 7
milkyway 8
Technology
23 ธันวาคม 2568
ภาษาไทย

เจาะลึกกลยุทธ์และเบื้องหลัง “Together Turbo” เมื่อ Speed และ Efficiency คือกุญแจสำคัญสู่การ Scaling AI ในระดับ Production

01-th-1200x800.jpg

ในโลกของ Generative AI ที่โมเดลภาษา (LLMs) มีความซับซ้อนและขนาดใหญ่ขึ้นทุกวัน ความท้าทายที่แท้จริงของผู้ให้บริการและนักพัฒนาไม่ใช่แค่เรื่องความฉลาดของโมเดลอีกต่อไป แต่คือ “Latency” และ “Cost” จะทำอย่างไรให้เราสามารถรันโมเดลขนาดใหญ่ได้อย่างรวดเร็ว (Fast Inference) ในต้นทุนที่สมเหตุสมผล โดยที่คุณภาพของคำตอบไม่ลดลง?


นี่คือโจทย์ใหญ่ที่ Together AI ให้ความสำคัญ โดยคุณ Ben Athiwaratkun, Staff AI Scientist, Turbo Research Team Lead ของ Together AI ได้เผยเบื้องหลังเทคโนโลยี “Together Turbo” ในงาน AI-VOLUTION ที่ได้เล่าถึงการผสานงานวิจัยเข้ากับระบบ Engineering ที่แข็งแกร่ง ทำให้สามารถทลายขีดจำกัดความเร็วเดิมๆ ได้อย่างมีประสิทธิภาพ


เป้าหมายหลักของ Together 


Together AI ไม่ได้ต้องการแค่สร้างโมเดล แต่ต้องการ "กระจายความฉลาด" (Democratize Intelligence) ให้ทุกคนเข้าถึงได้ กุญแจสำคัญคือการทำให้กระบวนการ Inference (การประมวลผลเพื่อตอบคำถาม) มีประสิทธิภาพสูงสุด เร็วขึ้น และประหยัดทรัพยากรที่สุด


ทีมวิจัยของ Together Turbo ไม่ได้พึ่งพาแค่เทคนิคใดเทคนิคหนึ่ง แต่ใช้ 4 กลยุทธ์ ประสานกันอย่างลงตัว:

  1. ตัดส่วนเกินด้วย Activation Sparsity (TEAL) ทีมวิจัยพบความจริงที่น่าสนใจว่า ในการประมวลผลแต่ละครั้ง ข้อมูล (Activations) ส่วนใหญ่ไม่ได้สำคัญทั้งหมด เทคนิค TEAL จึงถูกนำมาใช้เพื่อ "ข้าม" การคำนวณในส่วนที่มีค่าน้อย (Masking low-value activations) ผลลัพธ์คือลดภาระหน่วยความจำและลดความหน่วง (Latency) ลงได้ถึง 40% โดยที่ AI ยังฉลาดเหมือนเดิม
  1. ปรับโครงสร้างสถาปัตยกรรม (Architecture Adaptation) Together AI กล้าที่จะรื้อและปรับแต่งโครงสร้างภายในของโมเดล:
  • ลดเวลารอคอย: ใช้ Lateral Residuals เพื่อให้การส่งข้อมูลและการคำนวณเกิดขึ้นพร้อมกัน (Overlap)
  • จำแม่นและยาวขึ้น: ปรับน้ำหนัก Transformer ให้ทำงานร่วมกับสถาปัตยกรรมแบบ MAMBA ทำให้ AI สามารถดึงข้อมูล (Retrieval) จากบริบทที่ยาวระดับ 36k tokens ได้อย่างแม่นยำ จากเดิมที่เทรนมาเพียง 2k tokens เท่านั้น
  1. อ่านใจล่วงหน้าด้วย Speculative Decoding (Atlas) แทนที่จะรอสร้างคำตอบทีละคำ ระบบ Atlas ช่วยให้ AI "คาดเดา" และสร้างคำตอบออกมาทีละหลายคำในขั้นตอนเดียว ความพิเศษคือ Atlas มีระบบเรียนรู้หน้างาน (Runtime learning) ยิ่งมีคนใช้งานมาก ระบบยิ่งเดาแม่นขึ้น และทำงานเร็วขึ้นเรื่อยๆ ตามกาลเวลา
  1. ย่อขนาดแต่คงคุณภาพ (Quantization & Post-training) การบีบอัดข้อมูลโมเดล (Quantization) ลงเหลือระดับ FP8 หรือ FP4 อย่างถูกวิธี ช่วยให้รันโมเดลยักษ์ใหญ่บนฮาร์ดแวร์ยุคใหม่ได้ลื่นไหล ผสานกับการปรับแต่งหลังการเทรน (Post-training) เพื่อลดคอขวดในระบบ Reinforcement Learning (RL)

ผลลัพธ์: จากทฤษฎีสู่ความเร็วระดับ 500 Tokens/Sec

เมื่อนำทุกเทคนิคมา "Stack" รวมกัน ผลลัพธ์ที่ได้คือนวัตกรรมเปลี่ยนโลก บนชิป NVIDIA Blackwell โมเดล DeepSeek V3.1 ที่รันด้วยเทคโนโลยีของ Together Turbo สามารถทำความเร็วพุ่งทะยานจาก 100 tokens/วินาที ขึ้นไปแตะระดับ 500 tokens/วินาที

บทสรุป

คุณ Ben ได้เน้นย้ำว่าความสำเร็จนี้ไม่ได้เกิดจากการแก้ปัญหาทีละจุด แต่เกิดจาก "Full-stack Co-design" คือการออกแบบร่วมกันทั้งระบบ ตั้งแต่อัลกอริทึม เคอร์เนล ระบบปฏิบัติการ ไปจนถึงวิธีการเทรน นี่คือก้าวสำคัญที่เปลี่ยนงานวิจัยในห้องแล็บ ให้กลายเป็นโซลูชันระดับ Production ที่พร้อมขับเคลื่อนโลกธุรกิจ AI ให้เร็วขึ้น แรงขึ้น และเข้าถึงได้ง่ายกว่าที่เคย


สามารถรับชมคลิปวิดีโอเต็มได้ที่: https://www.youtube.com/watch?v=zHdLBoXln7I 


#TogetherAI #LLM #AIInfra #AIVOLUTION #SCB10

Use and Management of Cookies

We use cookies and other similar technologies on our website to enhance your browsing experience. For more information, please visit our Cookies Notice.

Reject
Accept