Huawei ra mắt Atlas 950 SuperCluster: 1 ZettaFLOPS cho inference, 524 ExaFLOPS cho training

Tác giả thanhloc 08/10/2025 7 phút đọc


DpdbnYcXXtffzJ7cpQCenR-970-80.png
 

Huawei ra mắt Atlas 950 SuperCluster: Siêu cụm AI quy mô lớn cho tương lai

Huawei vừa trình làng Atlas 950 SuperCluster – hệ thống siêu máy tính AI đẳng cấp trung tâm dữ liệu, sử dụng hàng trăm nghìn chip Ascend 950DT để đạt hiệu suất khổng lồ: lên đến 1 ZettaFLOPS (theo chuẩn FP4) khi thực hiện inference và 524 ExaFLOPS (chuẩn FP8) cho nhiệm vụ training mô hình AI.

Siêu cụm này được xây dựng từ 64 SuperPoD Atlas 950, mỗi SuperPoD chứa 8.192 chip AI, tạo nên tổng cộng 524.288 chip — trải dài trên hơn 10.240 tủ máy chủ và diện tích sàn ước tính khoảng 64.000 mét vuông.


Cấu trúc và hiệu năng

1. Kiến trúc và số lượng chip

  • Mỗi SuperPoD Atlas 950 chứa 8.192 chip Ascend 950DT, tương tự một module cực lớn.

  • Khi ghép 64 SuperPoD với nhau, Huawei tạo nên một hệ thống tích hợp quy mô cực kỳ lớn, tối ưu cho các tác vụ AI quy mô “siêu lớn”.

2. Hiệu năng tính toán

  • Inference (dự đoán): 1 ZettaFLOPS theo chuẩn FP4 (MXFP4) — một con số vô cùng ấn tượng nếu đạt được trong thực tế.

  • Training (huấn luyện): 524 ExaFLOPS theo chuẩn FP8 — cho phép xử lý các mô hình AI cực lớn, từ hàng tỷ đến hàng nghìn tỷ tham số.

3. Giao tiếp nội bộ và mạng lưới

  • Hệ thống hỗ trợ cả giao thức RoCE và giao thức nội bộ Huawei gọi là UBoE (UnifiedBus over Ethernet), nhằm giảm độ trễ khi liên kết các chip và tủ máy.

  • UBoE được quảng cáo có ưu điểm về độ trễ thấp hơn, yêu cầu ít phần cứng mạng hơn và tin cậy cao hơn trong trạng thái nhàn rỗi so với RoCE truyền thống.

4. Diện tích thực tế và thách thức triển khai

  • Để vận hành Atlas 950 SuperCluster, Huawei dự kiến cần khoảng 64.000 m² sàn — tương đương diện tích của 9 sân bóng đá.

  • Ngoài phần sàn máy chủ, còn cần không gian cho hệ thống làm mát, trạm điện, UPS, phòng hỗ trợ, và hạ tầng phụ trợ khác, khiến diện tích cần thiết thực tế có thể lớn hơn nhiều.


Kế hoạch mở rộng trong tương lai

Huawei cho biết họ đang phát triển Atlas 960 SuperCluster, dự kiến ra mắt vào cuối năm 2027. Siêu cụm mới sẽ chứa hơn 1 triệu chip Ascend 960, hướng tới hiệu suất 4 ZettaFLOPS theo chuẩn MXFP4, tiếp tục hỗ trợ cả RoCE và UBoE.

Lộ trình chip của Huawei cũng mở rộng qua các phiên bản Ascend 950PR, 950DT trong năm 2026, và Ascend 960/970 trong các năm tiếp theo, với tham vọng vượt qua các đối thủ quốc tế trong mảng hạ tầng AI.


Ý nghĩa và thách thức

Ưu điểm và tiềm năng

  • Atlas 950 là minh chứng cho chiến lược “quy mô vượt sức mạnh chip” — khi chip đơn lẻ chưa thể vượt đỉnh, Huawei chọn mở rộng số lượng chip để đạt hiệu năng khổng lồ.

  • Hệ thống này hướng tới khả năng phục vụ mô hình AI cực lớn — từ inference đến training — cho các ứng dụng như mô hình ngôn ngữ, mô hình thị giác và mô hình hỗ trợ tích hợp đa nhiệm.

Rủi ro và thách thức

  • Hiệu suất “đỉnh” (peak) là một chỉ số quảng cáo — thực tế hoạt động có thể thấp hơn nhiều do vấn đề truyền dữ liệu, tắc mạng, cân bằng tải.

  • Diện tích và tiêu thụ năng lượng cao: chi phí vận hành sẽ rất lớn, đặc biệt ở hệ thống làm mát và điện năng.

  • Việc hỗ trợ phần mềm, driver và hệ sinh thái AI là yếu tố quyết định thành công — chip mạnh mà không có phần mềm tối ưu sẽ chưa đủ sức cạnh tranh.

  • Huawei đang chịu các hạn chế từ lệnh cấm vận công nghệ từ Mỹ, đặc biệt trong việc truy cập các tiến trình sản xuất cao cấp và công nghệ đóng gói tiên tiến.

Tác giả thanhloc Admin
Bài viết trước Tôi giữ máy tính xách tay gọn gàng nhiều năm nhờ 9 thói quen đơn giản sau

Tôi giữ máy tính xách tay gọn gàng nhiều năm nhờ 9 thói quen đơn giản sau

Bài viết tiếp theo

Quá Nhiều Thương Hiệu Gán Nhãn AI Cho Công Nghệ Cơ Bản Nỗi Lo Đánh Lận Con Đen

Quá Nhiều Thương Hiệu Gán Nhãn AI Cho Công Nghệ Cơ Bản Nỗi Lo Đánh Lận Con Đen
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899