Anthropic, đơn vị cung cấp năng lượng cho Office và Copilot, cho biết AI rất dễ bị làm chệch hướng

Rõ ràng là bạn không cần một đội quân tin tặc, chỉ cần 250 tập tin lén lút là có thể làm hỏng một mô hình AI và khiến nó trở nên hỗn loạn.

Chuyện gì đã xảy ra? Anthropic , công ty AI đứng sau các mô hình Claude hiện đang hỗ trợ Copilot của Microsoft , vừa công bố một phát hiện gây sốc. Nghiên cứu được thực hiện với sự hợp tác của Viện An ninh AI Vương quốc Anh, Viện Alan Turing và Anthropic, đã tiết lộ các mô hình ngôn ngữ lớn (LLM) dễ dàng bị đầu độc bởi dữ liệu đào tạo độc hại và để lại cửa hậu cho đủ loại trò gian lận và tấn công.

Nhóm đã tiến hành thử nghiệm trên nhiều thang mô hình, từ 600 triệu đến 13 tỷ tham số, để xem LLM dễ phát tán rác như thế nào nếu chúng được cung cấp dữ liệu xấu lấy từ web.
Hóa ra, kẻ tấn công không cần phải thao túng một phần lớn dữ liệu đào tạo. Chỉ cần 250 tệp độc hại là đủ để phá vỡ một mô hình AI và tạo ra các cửa hậu cho những việc tầm thường như đưa ra những câu trả lời vô nghĩa.
Đây là một loại tấn công 'cửa hậu từ chối dịch vụ'; nếu mô hình nhìn thấy mã thông báo kích hoạt, ví dụ như , nó sẽ bắt đầu tạo ra các phản hồi hoàn toàn vô nghĩa hoặc cũng có thể tạo ra các câu trả lời gây hiểu lầm.

Điều này quan trọng vì: Nghiên cứu này phá vỡ một trong những giả định lớn nhất của AI rằng các mô hình lớn hơn sẽ an toàn hơn.

Nghiên cứu của Anthropic phát hiện ra rằng quy mô mô hình không bảo vệ được dữ liệu khỏi bị đầu độc. Tóm lại, một mô hình 13 tỷ tham số cũng dễ bị tổn thương như một mô hình nhỏ hơn.
Sự thành công của cuộc tấn công phụ thuộc vào số lượng tệp bị nhiễm độc, chứ không phải vào tổng dữ liệu đào tạo của mô hình.
Điều đó có nghĩa là ai đó có thể thực sự làm hỏng hành vi của mô hình mà không cần kiểm soát các tập dữ liệu khổng lồ.

Siri yêu cầu chuyển truy vấn của người dùng sang ChatGPT.

Tại sao tôi phải quan tâm? Khi các mô hình AI như Claude của Anthropic và ChatGPT của OpenAI được tích hợp vào các ứng dụng hàng ngày, mối đe dọa từ lỗ hổng này là có thật. AI giúp bạn soạn thảo email, phân tích bảng tính hoặc xây dựng slide thuyết trình có thể bị tấn công với tối thiểu 250 tệp độc hại.

Nếu các mô hình trục trặc do dữ liệu bị đầu độc, người dùng sẽ bắt đầu nghi ngờ mọi kết quả đầu ra của AI và lòng tin sẽ bị xói mòn.
Các doanh nghiệp dựa vào AI để thực hiện các nhiệm vụ nhạy cảm như dự đoán tài chính hoặc tóm tắt dữ liệu có nguy cơ bị phá hoại.
Khi các mô hình AI trở nên mạnh mẽ hơn, các phương pháp tấn công cũng sẽ mạnh mẽ hơn. Nhu cầu cấp thiết về các quy trình phát hiện và đào tạo mạnh mẽ có thể giảm thiểu tình trạng đầu độc dữ liệu đang trở nên cấp thiết.

Anthropic, đơn vị cung cấp năng lượng cho Office và Copilot, cho biết AI rất dễ bị làm chệch hướng

Rõ ràng là bạn không cần một đội quân tin tặc, chỉ cần 250 tập tin lén lút là có thể làm hỏng một mô hình AI và khiến nó trở nên hỗn loạn.

Trình tạo video AI của Google Flow bổ sung các điều khiển sáng tạo giúp Sora trông thuần hóa hơn

Cách Tắt Hiệu Ứng Trong Suốt Trên Windows 10 Nhanh Chóng Và Hiệu Quả

Bài viết liên quan

Trình tạo video AI của Google Flow bổ sung các điều khiển sáng tạo giúp Sora trông thuần hóa hơn

Đưa iPhone 17 Pro Max vào tầm ngắm

Cửa hàng Apple Store đã ngừng hoạt động. Đây là lý do tại sao bạn không thể sử dụng nó

Những kẻ mạo danh Sora hoành hành trên App Store – đây là cách tìm ra Sora thật của OpenAI

Gemini của Google cầm lái xe Mercedes, và đó không chỉ là lời nói suông

Chiếc máy tính xách tay chơi game HP này là lựa chọn hàng đầu của chúng tôi — tiết kiệm gần 500 đô la!