Chuyện gì đã xảy ra? Anthropic , công ty AI đứng sau các mô hình Claude hiện đang hỗ trợ Copilot của Microsoft , vừa công bố một phát hiện gây sốc. Nghiên cứu được thực hiện với sự hợp tác của Viện An ninh AI Vương quốc Anh, Viện Alan Turing và Anthropic, đã tiết lộ các mô hình ngôn ngữ lớn (LLM) dễ dàng bị đầu độc bởi dữ liệu đào tạo độc hại và để lại cửa hậu cho đủ loại trò gian lận và tấn công.
- Nhóm đã tiến hành thử nghiệm trên nhiều thang mô hình, từ 600 triệu đến 13 tỷ tham số, để xem LLM dễ phát tán rác như thế nào nếu chúng được cung cấp dữ liệu xấu lấy từ web.
- Hóa ra, kẻ tấn công không cần phải thao túng một phần lớn dữ liệu đào tạo. Chỉ cần 250 tệp độc hại là đủ để phá vỡ một mô hình AI và tạo ra các cửa hậu cho những việc tầm thường như đưa ra những câu trả lời vô nghĩa.
- Đây là một loại tấn công 'cửa hậu từ chối dịch vụ'; nếu mô hình nhìn thấy mã thông báo kích hoạt, ví dụ như
, nó sẽ bắt đầu tạo ra các phản hồi hoàn toàn vô nghĩa hoặc cũng có thể tạo ra các câu trả lời gây hiểu lầm.


