Anthropic, đơn vị cung cấp năng lượng cho Office và Copilot, cho biết AI rất dễ bị làm chệch hướng

Tác giả thuytrang 16/10/2025 8 phút đọc

Rõ ràng là bạn không cần một đội quân tin tặc, chỉ cần 250 tập tin lén lút là có thể làm hỏng một mô hình AI và khiến nó trở nên hỗn loạn.

 

đầu độc dữ liệu nhân loại-ai

Chuyện gì đã xảy ra? Anthropic , công ty AI đứng sau các mô hình Claude hiện đang hỗ trợ Copilot của Microsoft , vừa công bố một phát hiện gây sốc. Nghiên cứu được thực hiện với sự hợp tác của Viện An ninh AI Vương quốc Anh, Viện Alan Turing và Anthropic, đã tiết lộ các mô hình ngôn ngữ lớn (LLM) dễ dàng bị đầu độc bởi dữ liệu đào tạo độc hại và để lại cửa hậu cho đủ loại trò gian lận và tấn công.

  • Nhóm đã tiến hành thử nghiệm trên nhiều thang mô hình, từ 600 triệu đến 13 tỷ tham số, để xem LLM dễ phát tán rác như thế nào nếu chúng được cung cấp dữ liệu xấu lấy từ web.
  • Hóa ra, kẻ tấn công không cần phải thao túng một phần lớn dữ liệu đào tạo. Chỉ cần 250 tệp độc hại là đủ để phá vỡ một mô hình AI và tạo ra các cửa hậu cho những việc tầm thường như đưa ra những câu trả lời vô nghĩa.
  • Đây là một loại tấn công 'cửa hậu từ chối dịch vụ'; nếu mô hình nhìn thấy mã thông báo kích hoạt, ví dụ như , nó sẽ bắt đầu tạo ra các phản hồi hoàn toàn vô nghĩa hoặc cũng có thể tạo ra các câu trả lời gây hiểu lầm.

Claude AI trên iPhone.

Điều này quan trọng vì: Nghiên cứu này phá vỡ một trong những giả định lớn nhất của AI rằng các mô hình lớn hơn sẽ an toàn hơn.

  • Nghiên cứu của Anthropic phát hiện ra rằng quy mô mô hình không bảo vệ được dữ liệu khỏi bị đầu độc. Tóm lại, một mô hình 13 tỷ tham số cũng dễ bị tổn thương như một mô hình nhỏ hơn.
  • Sự thành công của cuộc tấn công phụ thuộc vào số lượng tệp bị nhiễm độc, chứ không phải vào tổng dữ liệu đào tạo của mô hình.
  • Điều đó có nghĩa là ai đó có thể thực sự làm hỏng hành vi của mô hình mà không cần kiểm soát các tập dữ liệu khổng lồ.

Siri yêu cầu chuyển truy vấn của người dùng sang ChatGPT.

Tại sao tôi phải quan tâm? Khi các mô hình AI như Claude của Anthropic và ChatGPT của OpenAI được tích hợp vào các ứng dụng hàng ngày, mối đe dọa từ lỗ hổng này là có thật. AI giúp bạn soạn thảo email, phân tích bảng tính hoặc xây dựng slide thuyết trình có thể bị tấn công với tối thiểu 250 tệp độc hại.

  • Nếu các mô hình trục trặc do dữ liệu bị đầu độc, người dùng sẽ bắt đầu nghi ngờ mọi kết quả đầu ra của AI và lòng tin sẽ bị xói mòn.
  • Các doanh nghiệp dựa vào AI để thực hiện các nhiệm vụ nhạy cảm như dự đoán tài chính hoặc tóm tắt dữ liệu có nguy cơ bị phá hoại.
  • Khi các mô hình AI trở nên mạnh mẽ hơn, các phương pháp tấn công cũng sẽ mạnh mẽ hơn. Nhu cầu cấp thiết về các quy trình phát hiện và đào tạo mạnh mẽ có thể giảm thiểu tình trạng đầu độc dữ liệu đang trở nên cấp thiết.
Tác giả thuytrang Admin
Bài viết trước Trình tạo video AI của Google Flow bổ sung các điều khiển sáng tạo giúp Sora trông thuần hóa hơn

Trình tạo video AI của Google Flow bổ sung các điều khiển sáng tạo giúp Sora trông thuần hóa hơn

Bài viết tiếp theo

Cách Tắt Hiệu Ứng Trong Suốt Trên Windows 10 Nhanh Chóng Và Hiệu Quả

Cách Tắt Hiệu Ứng Trong Suốt Trên Windows 10 Nhanh Chóng Và Hiệu Quả
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899