Positron AI Atlas: Bộ Tăng Tốc AI Mới Đánh Bại Nvidia H200 Với Hiệu Suất Cao Hơn Gấp Ba Lần

Tác giả ngocbao 19/09/2025 3 phút đọc

Positron AI, công ty khởi nghiệp AI có trụ sở tại Mỹ, đã giới thiệu bộ tăng tốc AI Atlas thế hệ mới, hứa hẹn mang đến hiệu suất vượt trội trong tác vụ suy luận so với các giải pháp hiện tại. Trong thử nghiệm với mô hình Llama 3.1 8B, Atlas đạt tốc độ 280 token mỗi giây mỗi người dùng, sử dụng chỉ 2000W điện năng, trong khi Nvidia H200 chỉ đạt 180 token mỗi giây ở mức tiêu thụ 5900W. Điều này cho thấy Atlas tiết kiệm năng lượng hơn gấp ba lần so với H200.

Bộ tăng tốc Atlas được thiết kế chuyên biệt cho tác vụ suy luận, khác biệt với các GPU đa năng như H200 vốn được tối ưu cho cả huấn luyện và suy luận. Atlas sử dụng tám bộ tăng tốc Archer, được sản xuất tại nhà máy TSMC ở Arizona với công nghệ N4/N5, và lắp ráp tại Mỹ, mặc dù việc đóng gói HBM có thể diễn ra tại Đài Loan.

Hệ thống này tương thích với các công cụ AI phổ biến như Hugging Face và hỗ trợ API tương thích với OpenAI, giúp tích hợp dễ dàng vào các quy trình làm việc hiện tại mà không cần thay đổi lớn.

Positron AI đã nhận được hơn 75 triệu USD vốn đầu tư và đang phát triển hệ thống tăng tốc thế hệ thứ hai mang tên Asimov, dự kiến ra mắt vào năm 2026. Asimov sẽ có khả năng xử lý các mô hình AI quy mô lớn với 16 nghìn tỷ tham số, đáp ứng nhu cầu ngày càng tăng về hiệu suất và tiết kiệm năng lượng trong lĩnh vực AI.