Meta เปิดตัวคลัสเตอร์ใหม่สำหรับฝึก LLaMA 3 พลังประมวลผลเทียบเท่าชิป H100 จำนวน 600,000 ตัว

Meta

Meta เปิดตัวคลัสเตอร์ใหม่ ออกแบบมาโดยเฉพาะสำหรับการพัฒนาและฝึก LLaMA 3 ปัญญาประดิษฐ์รุ่นใหม่ของบริษัท คลัสเตอร์นี้ทำหน้าที่เป็นพื้นที่ทดสอบสถาปัตยกรรมคลัสเตอร์ใหม่ที่จะขยายต่อไปในอนาคต

Meta วางแผน จะซื้อชิป H100 เพิ่มเติมจนสิ้นปีนี้ คาดว่าจะมีชิป H100 บนคลัสเตอร์ทั้งหมดประมาณ 350,000 ตัว คิดเป็นพลังประมวลผลรวมเทียบเท่ากับชิป H100 จำนวน 600,000 ตัว

คลัสเตอร์แบ่งออกเป็นสองชุดหลัก ต่างกันที่ระบบเน็ตเวิร์คที่ใช้ ชุดแรกใช้ระบบ RDMA over RoCE บนเน็ตเวิร์ค Arista 7800 กับ Wedge400 อีกชุดใช้ NVIDIA Quantum2 InfiniBand ทั้งสองชุดมีแบนวิดท์เชื่อมต่อ 400Gbps เท่ากัน ซึ่งผลการใช้งานเบื้องต้นพบว่าทั้งสองชุดมีประสิทธิภาพดี

ตัวเซิร์ฟเวอร์ บนคลัสเตอร์ใช้เครื่อง Grand Teton ที่ Meta ออกแบบเองสำหรับงาน AI โดยเฉพาะ ระบบสตอเรจเป็นแบบ Flash ที่เชื่อมต่อกับ Linux ผ่านระบบ Tectonic ซึ่ง Meta พัฒนาขึ้นเองเช่นกัน

ความท้าทาย หลักประการหนึ่งในการสร้างคลัสเตอร์ขนาดใหญ่คือระบบสื่อสารที่อาจกลายเป็นคอขวดได้ ทีมงานของ Meta จึงต้องปรับแต่งทั้งซอฟต์แวร์และระบบเน็ตเวิร์คเพื่อให้ประสิทธิภาพการทำงานใกล้เคียงกับคลัสเตอร์ขนาดเล็กที่สามารถทำได้ถึง 100%

สรุปประเด็นสำคัญ:

  • Meta เปิดตัวคลัสเตอร์ใหม่สำหรับฝึก LLaMA 3
  • คลัสเตอร์มีชิป H100 จำนวน 350,000 ตัว คิดเป็นพลังประมวลผลรวมเทียบเท่ากับชิป H100 จำนวน 600,000 ตัว
  • แบ่งออกเป็นสองชุดหลัก ต่างกันที่ระบบเน็ตเวิร์ค
  • ใช้ตัวเซิร์ฟเวอร์ Grand Teton และระบบสตอเรจ Tectonic ที่ Meta พัฒนาเอง
  • ทีมงานปรับแต่งซอฟต์แวร์และระบบเน็ตเวิร์คเพื่อลดคอขวด

ที่มา: Meta