AI Factories: ดีไซน์ระบบเพื่อรองรับ Trillion-Parameter Model และ Workload แบบ Real-Time

ขณะที่ Data Center ส่วนใหญ่ในปัจจุบันถูกออกแบบมาด้วยมาตรฐานกำลังไฟประมาณ 3-5 กิโลวัตต์ต่อตู้เพื่อใช้รันแอปพลิเคชันหรือเก็บข้อมูล แต่สำหรับ "AI Factory" ที่ต้องประมวลผลโมเดลขนาดใหญ่ระดับล้านล้านหน่วยนั้น ต้องการความหนาแน่นของพลังงานที่สูงกว่าเดิมมาก ซึ่งในระบบระดับสูงก็อาจต้องการไฟเพิ่มขึ้นถึง 20-30 เท่า

โจทย์สำคัญสำหรับ Enterprise จึงเป็นเรื่องของการประเมินความพร้อมตามความเป็นจริง: ระบบไฟและระบบระบายความร้อนที่มีอยู่ จะรองรับ Workload รูปแบบใหม่นี้ได้อย่างไร และเมื่อถึงเวลาต้องขยับขยาย ทางเลือกไหนคือคำตอบที่คุ้มค่าและยั่งยืนที่สุด

Key Insights จาก AI-VOLUTION ใน Session "AI Factories – Designing for Trillion-Parameter, Real-Time Workloads" ที่เจาะลึกมุมมองของ Terry Yin, Senior Data Scientist & Deep Learning System Architect จาก NVIDIA ดำเนินรายการโดย คุณญาบดี จิตติลก, Chief Data Officer จาก DataX เพื่อถอดรหัสสถาปัตยกรรมเบื้องหลังการสร้าง "AI Factory" ที่องค์กรชั้นนำต้องรู้

Data Center vs AI Factory เมื่อมาตรฐานเดิมกลายเป็นข้อจำกัด

Terry Yin ชี้ให้เห็นจุดเปลี่ยนสำคัญว่า ในอดีตเราสร้าง Data Center เพื่อ Host แอปพลิเคชัน แต่ในยุคนี้เรากำลังต้องการสถานที่ที่เป็นเหมือน "Production Line" ซึ่งมีโจทย์การออกแบบและโครงสร้างพื้นฐานที่แตกต่างกันอย่างสิ้นเชิง โดยเฉพาะเรื่อง “Power Density” ที่ระบบยุคเก่าไม่ได้ถูกเตรียมมารองรับ

เพื่อให้เห็นภาพชัดเจนขึ้น Terry ยกตัวเลขเปรียบเทียบว่า ใน Data Center แบบดั้งเดิม มาตรฐานการรองรับกำลังไฟต่อ Rack จะอยู่ที่ประมาณ 3-5 กิโลวัตต์ (kW) ซึ่งเพียงพอสำหรับงานไอทีพื้นฐาน แต่สำหรับ AI Factory ที่ต้องรัน LLM นั้น ขั้นต่ำที่สุดต้องเริ่มที่ 10 kW ต่อ Rack และหากขยับไปสู่ระบบระดับท็อปอย่าง NVIDIA GB200 NVL72 ความต้องการอาจพุ่งสูงถึง 120 kW หรือมากกว่าเดิมถึง 20-30 เท่า ซึ่งตัวเลขนี้ยืนยันชัดเจนว่าการนำ AI ไปรันในสภาพแวดล้อมเดิมนั้นแทบเป็นไปไม่ได้ หากไม่มีการรื้อระบบไฟและระบบระบายความร้อนใหม่ครั้งใหญ่

ทางแยก Cloud vs Build ตัดสินด้วย Data Pipeline และ Network

เมื่อต้องเลือกว่าจะสร้างเองหรือใช้ Cloud Terry แนะนำให้เริ่มพิจารณาที่ "Data Pipeline" ขององค์กรเป็นอันดับแรก หากข้อมูลส่วนใหญ่อยู่บน Cloud (Cloud-native) การย้ายออกอาจต้องใช้เวลาและทรัพยากรสูง แต่ปัจจัยชี้วัดที่จะกำหนดความสำเร็จจริงๆ กลับไม่ใช่เรื่องของข้อมูลเพียงอย่างเดียว แต่คือเรื่องของ "Compute Supply" และ "Interconnect"

บททดสอบสำคัญของผู้ให้บริการ Cloud คือพวกเขาสามารถส่งมอบ GPU Cluster ที่เชื่อมต่อกันด้วย Network ความหน่วงต่ำ (Low-latency) ได้จริงหรือไม่? เป้าหมายคือการทำให้ GPU จำนวนมหาศาลทำงานประสานกันเสมือนเป็นระบบเดียว (One System) ให้ได้ เพราะนี่คือหัวใจสำคัญของการเทรนโมเดลขนาดใหญ่ ซึ่ง Cloud ทั่วไปที่ไม่ได้ออกแบบมาเพื่องาน AI โดยเฉพาะอาจไม่สามารถตอบโจทย์ข้อนี้ได้

กับดัก Utility Mindset และราคาของการรอคอย

ผู้บริหารหลายท่านอาจมองว่าควรรอให้เทคโนโลยี AI นิ่งและเสถียรเหมือนไฟฟ้าก่อน แล้วค่อยเริ่มต้นลงทุนนำมาใช้งาน แต่ Terry มองว่าแนวคิดนี้ (Utility Mindset) อาจทำให้องค์กรเสียเปรียบมหาศาล เพราะ AI ไม่ใช่แค่สินค้าสำเร็จรูปที่ซื้อมาแล้วเสียบปลั๊กใช้ได้เลยเหมือนกันหมด แต่ AI คือเทคโนโลยีที่ต้องอาศัยการ "เรียนรู้" ข้อมูลเฉพาะขององค์กรควบคู่ไปด้วยเพื่อให้ได้ประสิทธิภาพสูงสุด

ดังนั้นความเสี่ยงที่แท้จริงจึงตกอยู่ที่การรอจนเทคโนโลยีสมบูรณ์แบบเพราะอาจทำให้องค์กรพลาดโอกาสสำคัญในการสร้าง "In-house Capability" หรือทักษะของทีมงานภายใน ยิ่งเริ่มช้าเท่าไหร่ ทีมงานก็จะยิ่งขาดความเข้าใจในการปรับจูนโมเดลให้เข้ากับข้อมูลของตนเอง ซึ่งเป็นทักษะที่ซื้อไม่ได้ด้วยเงิน แต่ต้องใช้เวลาในการสะสมประสบการณ์เท่านั้น

เบื้องหลังความสำเร็จของ Trillion-Parameter คือเสถียรภาพ

เมื่อต้องเทรนโมเดลขนาดใหญ่ระดับ Trillion Parameters ความท้าทายสูงสุดไม่ใช่แค่เรื่องความเร็ว แต่คือเสถียรภาพและความต่อเนื่อง Terry อธิบายว่าในการเทรนโมเดลระดับนี้ เรากำลังพูดถึงสเกลงานที่ใหญ่มาก เช่น การโหลดโมเดลขนาด 1 TB กระจายลงไปใน GPU กว่า 1,000 ตัวพร้อมกัน ซึ่งความผิดพลาดเพียงเล็กน้อยอาจหมายถึงความเสียหายใหญ่หลวง

นี่คือจุดที่ The Network Vitality เข้ามามีบทบาท หากระบบเน็ตเวิร์กไม่ดีพอ การ Restart ระบบเมื่อเกิดขัดข้องอาจกินเวลานานและส่งผลกระทบต่องบประมาณ นี่คือเหตุผลที่ NVIDIA ให้ความสำคัญกับการพัฒนาเทคโนโลยีอย่าง Blackwell Ultra และระบบเน็ตเวิร์ก NVLink เพื่อเชื่อมโยง GPU จำนวนมหาศาลให้ทำงานร่วมกันได้เสมือนเป็นระบบเดียว ช่วยให้ระบบมีความยืดหยุ่นสูง สามารถกู้คืนระบบ ได้รวดเร็ว และทำให้งานเดินหน้าต่อได้โดยไม่สะดุด

Real-Time Inference ความเร็วที่ต้องแลกมาด้วยความเข้าใจ

ในสมรภูมิของการนำ AI ไปใช้งานจริง (Inference) โดยเฉพาะแอปพลิเคชันที่ต้องการโต้ตอบแบบ Real-time โจทย์จะไม่ได้หยุดอยู่แค่เรื่องความฉลาดของโมเดล แต่เปลี่ยนไปอยู่ที่ Latency และ Throughput

Terry ย้ำว่าการจะสร้างระบบที่ทั้งเร็วและเสถียรนั้น "ไม่ง่าย" และไม่มีสูตรสำเร็จตายตัว สิ่งที่ Enterprise ต้องทำคือการ "ผ่าตัด Workflow" ของแอปพลิเคชันออกมาดูอย่างละเอียดเพื่อค้นหา 2 จุดสำคัญที่มักถูกมองข้าม:

Hot Spots: จุดคอขวดที่กินทรัพยากรสูงสุดและฉุดรั้งให้ระบบทำงานช้าลง
Fragile Points: จุดเปราะบางที่อาจไม่ได้ทำให้ระบบช้า แต่ถ้าจุดนี้พังเพียงจุดเดียว ระบบทั้งหมดจะล่มทันที

นอกจากนี้ เนื่องจากเทคโนโลยี AI หมุนเร็วมาก พิมพ์เขียวที่เคยใช้ได้เดือนที่แล้วอาจล้าสมัยในเดือนนี้ NVIDIA จึงมีการแชร์ Reference Architecture ที่รวบรวม Best Practices จากทั่วโลก ซึ่งมีการอัปเดตใหม่แทบจะ "รายเดือน" (Monthly Basis) การศึกษาพิมพ์เขียวเหล่านี้จะช่วยให้องค์กรประหยัดเวลาลองผิดลองถูก และปิดจุดเสี่ยงได้แม่นยำยิ่งขึ้นโดยไม่ต้องเริ่มนับหนึ่งใหม่เองทั้งหมด

เริ่มต้นอย่างไร? 3 ขั้นตอนเปลี่ยนวิสัยทัศน์สู่ AI Factory ที่จับต้องได้

สำหรับองค์กรที่ต้องการเริ่มต้นสร้าง AI Factory ของตัวเอง แต่ยังจับต้นชนปลายไม่ถูกว่าจะเริ่มลงทุนที่ตรงไหน Terry ให้คำแนะนำว่า "อย่าเพิ่งรีบซื้อ Hardware แต่ให้เริ่มที่ Software และ Business Logic ก่อน" ผ่าน 3 ขั้นตอนสำคัญ:

Select the Model: การเริ่มต้นไม่ใช่แค่การสมัครใช้ Chatbot ทั่วไป แต่คือการเลือกโมเดลที่เหมาะสมกับโจทย์ธุรกิจที่สุด เพื่อใช้เป็นจุดตั้งต้นของโครงการ
Stick to Roadmap: ตัดสินใจให้ชัดเจนว่าจะเดินตาม Roadmap ของผู้พัฒนาโมเดลเพื่อรอรับฟีเจอร์ใหม่ๆ หรือจะแยกออกมาพัฒนาเอง เพื่อสร้างให้เป็นทรัพย์สินทางปัญญาขององค์กรจริงๆ
Map Sizing to Infra: เมื่อเลือกโมเดลได้แล้ว ขนาดของ Infrastructure ไม่ควรมาจากการคาดเดา แต่จะถูกคำนวณออกมาได้โดยอัตโนมัติจากสมการ: [ขนาดของโมเดล + จำนวนผู้ใช้งาน + ประสบการณ์ที่ต้องการ]

การทำตามลำดับขั้นตอนนี้ จะช่วยให้องค์กรเปลี่ยนความกังวลเรื่องการลงทุนมหาศาล ให้กลายเป็น Precision Investment ป้องกันปัญหาซื้อของมาเกินความจำเป็นหรือระบบล่มเพราะรองรับไม่ไหวและที่สำคัญคือ ทำให้องค์กรเริ่มก้าวแรกสู่การเป็น AI Factory ได้อย่างมั่นคง โดยไม่ต้องรอให้เทคโนโลยีสมบูรณ์แบบที่สุด

รับชมทั้งหมดได้ที่ https://youtu.be/0myfCFwdeQw?si=HW8ikKtLAEvPWRuZ

#AIVOLUTION #SCB10X #NVIDIA #AIFactory #AIInfrastructure #EnterpriseAI #DataCenter #Blackwell #GenerativeAI #TrillionParameter #DigitalTransformation