Bạn có thể phát hiện ra một chatbot AI bị nhiễm độc? 4 lời khuyên từ chuyên gia bảo mật của Microsoft

Tác giả tanthanh 26/01/2026 10 phút đọc

“Evil” AI tồn tại, nơi mô hình được xây dựng cho tình trạng hỗn loạn, hoạt động tội phạm và không có lợi ích gì. Nhưng các công cụ AI hợp pháp cũng có thể bị hỏng. Tin tặc có thể cung cấp dữ liệu cho AI đầu độc it—. Mục tiêu là tác động đến tập dữ liệu AI và thay đổi đầu ra của nó. 

Có lẽ kẻ tấn công muốn có một kết quả kín đáo hơn, chẳng hạn như đưa ra những thành kiến. Hoặc có lẽ thay vào đó là những kết quả độc hại, như những điểm không chính xác hoặc gợi ý nguy hiểm. AI chỉ là một công cụ—it không biết liệu nó đang được sử dụng vì lợi ích tích cực hay tiêu cực. Nếu bạn không biết phải tìm kiếm điều gì, bạn có thể trở thành nạn nhân của tội phạm mạng.

 

Vì vậy, tuần trước khi tôi tham dự Hội nghị RSAC, nơi quy tụ hàng ngàn chuyên gia an ninh mạng, tôi đã nhân cơ hội đi sâu vào bảo mật AI với Ram Shankar Siva Kumar, một Data Cowboy của Microsoft đội red. Red teams hoạt động như những người kiểm tra thâm nhập nội bộ cho các công ty, cố tình tìm cách phá vỡ hoặc thao túng hệ thống để tìm ra lỗ hổng của nó.

Trong cuộc trò chuyện của chúng tôi, Kumar đã cho tôi một số mẹo sắc nét về cách giữ an toàn khỏi AI bị xâm nhập, cho dù đó là chatbot mà bạn đang trò chuyện hay một đại lý xử lý thông tin tự động hơn. Bởi vì, hóa ra, việc phát hiện ra một AI bị nhiễm độc là rất khó khăn.

1. Bám sát những người chơi lớn

Ảnh chụp màn hình nhập vai Dungeons and Dragons sử dụng thực tế trong thế giới thực của ChatGPT
Các công cụ AI được tạo và duy trì bởi những người chơi lớn hơn trong không gian (như ChatGPT của OpenAI) dễ tin cậy hơn— mặc dù không tránh khỏi các lỗ hổng.

Mặc dù mọi công cụ AI sẽ có lỗ hổng, bạn có thể tin tưởng tốt hơn vào ý định (và quy mô của các đội sẵn sàng giảm thiểu chúng) từ những người chơi lớn hơn trong lĩnh vực này. Họ không chỉ được thiết lập nhiều hơn mà còn phải có mục tiêu rõ ràng cho AI của mình.

Vì vậy, ví dụ, ChatGPT của OpenAI, Microsoft Copilot và Google Gemini? Đáng tin cậy hơn một chatbot mà bạn tìm thấy ngẫu nhiên trong một subreddit nhỏ, ít người biết đến. Ít nhất, bạn có thể dễ dàng tin vào mức độ tin cậy cơ bản hơn.

 

2. Biết rằng AI có thể tạo nên mọi th

Trong một thời gian dài, bạn có thể hỏi Google cái nào lớn hơn, California hay Germany— và bản tóm tắt tìm kiếm AI của nó sẽ cho bạn biết Đức. (Không.) Nó đã ngừng so sánh dặm với km chỉ gần đây.

Đây là một ảo giác ngây thơ hoặc một trường hợp khi thông tin sai được đưa ra là đúng về mặt thực tế. (Bạn có biết người hàng xóm hai tuổi của bạn tự tin tuyên bố rằng chó chỉ có thể là con trai không? Vâng, nó giống như vậy.)

Với AI bị xâm nhập, nó có thể gây ảo giác theo những cách nguy hiểm hơn hoặc đơn giản là điều khiển bạn theo những cách nguy hiểm có chủ đích. Ví dụ, có thể một AI bị đầu độc để bỏ qua các biện pháp an toàn xung quanh việc đưa ra lời khuyên y t.

Vì vậy, bất kỳ lời khuyên hoặc hướng dẫn nào bạn được AI đưa ra? Luôn luôn chấp nhận chúng với sự hoài nghi lịch s.

 

3. Hãy nhớ AI chỉ đi dọc theo những gì nó tìm thấy

Khi một chatbot AI trả lời câu hỏi của bạn, những gì bạn thấy là một bản tóm tắt thông tin mà nó tìm thấy. Nhưng những chi tiết đó chỉ tốt bằng sources— và ngay bây giờ, chúng không phải lúc nào cũng có tầm cỡ hàng đầu.

Bạn nên luôn luôn nhìn qua nguồn tài liệu mà AI dựa vào. Đôi khi, nó có thể đưa các chi tiết ra khỏi ngữ cảnh hoặc hiểu sai chúng. Hoặc nó có thể không có đủ sự đa dạng trong tập dữ liệu của nó để biết các trang web tốt nhất để dựa vào (và ngược lại, xuất bản ít nội dung có ý nghĩa).

 

Tôi biết một số người chia sẻ tin tức hấp dẫn, nhưng họ không phải lúc nào cũng suy nghĩ kỹ về việc ai đã cho họ biết thông tin. Tôi luôn hỏi họ nghe những chi tiết đó ở đâu và sau đó tự quyết định xem tôi có nghĩ nguồn đó đáng tin cậy không. Tôi cá là bạn cũng làm điều này. Mở rộng thói quen tương tự cho AI.

4. Suy nghĩ nghiêm túc

Trang nhất wikipedia
Những ngày đầu của Wikipedia đã dạy chúng tôi tin tưởng nhưng xác minh thông tin được cung cấp bởi những người đóng góp. (Điều bạn vẫn nên làm.) Xử lý các chatbot AI tương tự.

Để tổng hợp những lời khuyên trên: Bạn không thể biết tất cả mọi th. (Ít nhất, hầu hết chúng ta đều không thể.) Kỹ năng tốt nhất tiếp theo là hiểu nên dựa vào ai và cách quyết định điều đó. AI độc hại chiến thắng khi bạn tắt não. 

Vì vậy, hãy luôn tự hỏi mình, điều này nghe có đúng không? Đừng để sự tự tin bán bạn.

Những lời khuyên trên sẽ giúp bạn bắt đầu. Nhưng bạn có thể giữ đà đó bằng cách thường xuyên tham khảo chéo những gì bạn đọc (nghĩa là xem xét nhiều nguồn để kiểm tra kỹ công việc của người trợ giúp AI của bạn) và bằng cách tìm hiểu ai để yêu cầu trợ giúp thêm. Mục tiêu của tôi là có thể trả lời câu hỏi thứ hai sau tác phẩm đó: Tại sao ai đó tạo bài viết hoặc video nguồn này?

Tác giả tanthanh Admin
Bài viết trước hris Pratt nói rằng 'sẽ có nhiều phim hơn được sản xuất' nhờ công nghệ này, ngay cả khi bộ phim khoa học viễn tưởng mới Mercy không đồng tình với quan điểm đó.

hris Pratt nói rằng 'sẽ có nhiều phim hơn được sản xuất' nhờ công nghệ này, ngay cả khi bộ phim khoa học viễn tưởng mới Mercy không đồng tình với quan điểm đó.

Bài viết tiếp theo

Từ Crossfade đến Lossless: 5 cài đặt Spotify bạn nên chỉnh ngay mà nhiều người bỏ qua

Từ Crossfade đến Lossless: 5 cài đặt Spotify bạn nên chỉnh ngay mà nhiều người bỏ qua
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899