Lỗi Reset GPU RTX 5090 & PRO 6000: Yêu Cầu Khởi Động Lại Hệ Thống
Lỗi Reset GPU RTX 5090 & PRO 6000: Yêu Cầu Khởi Động Lại Hệ Thống
Giới Thiệu
Các GPU Nvidia RTX 5090 và RTX PRO 6000, thuộc dòng Blackwell, đang gặp phải một lỗi nghiêm trọng khi sử dụng trong môi trường ảo hóa. Sau khi thực hiện thao tác reset PCIe Function-Level Reset (FLR) trong quá trình tắt máy ảo hoặc chuyển giao GPU, card đồ họa trở nên không phản hồi và chỉ có thể khôi phục bằng cách khởi động lại toàn bộ hệ thống .
Nguyên Nhân và Hậu Quả
Theo báo cáo từ CloudRift, một nhà cung cấp dịch vụ GPU đám mây, lỗi này xảy ra khi GPU được gán cho máy ảo thông qua KVM và VFIO. Sau khi thực hiện FLR, GPU không trở lại trạng thái hoạt động bình thường, dẫn đến việc không thể nhận dạng và yêu cầu khởi động lại hệ thống để khôi phục hoạt động
.
Phản Hồi và Giải Pháp
Hiện tại, Nvidia chưa đưa ra phản hồi chính thức về vấn đề này. CloudRift đã công bố một phần thưởng trị giá 1.000 USD cho bất kỳ ai có thể xác định nguyên nhân hoặc cung cấp giải pháp khắc phục lỗi này