Bạn có thể phát hiện ra một chatbot AI bị nhiễm độc? 4 lời khuyên từ chuyên gia bảo mật của Microsoft

Tác giả tanthanh 26/01/2026 10 phút đọc

“Evil” AI tồn tại, nơi mô hình được xây dựng cho tình trạng hỗn loạn, hoạt động tội phạm và không có lợi ích gì. Nhưng các công cụ AI hợp pháp cũng có thể bị hỏng. Tin tặc có thể cung cấp dữ liệu cho AI đầu độc it—. Mục tiêu là tác động đến tập dữ liệu AI và thay đổi đầu ra của nó.

Có lẽ kẻ tấn công muốn có một kết quả kín đáo hơn, chẳng hạn như đưa ra những thành kiến. Hoặc có lẽ thay vào đó là những kết quả độc hại, như những điểm không chính xác hoặc gợi ý nguy hiểm. AI chỉ là một công cụ—it không biết liệu nó đang được sử dụng vì lợi ích tích cực hay tiêu cực. Nếu bạn không biết phải tìm kiếm điều gì, bạn có thể trở thành nạn nhân của tội phạm mạng.

Vì vậy, tuần trước khi tôi tham dự Hội nghị RSAC, nơi quy tụ hàng ngàn chuyên gia an ninh mạng, tôi đã nhân cơ hội đi sâu vào bảo mật AI với Ram Shankar Siva Kumar, một Data Cowboy của Microsoft đội red. Red teams hoạt động như những người kiểm tra thâm nhập nội bộ cho các công ty, cố tình tìm cách phá vỡ hoặc thao túng hệ thống để tìm ra lỗ hổng của nó.

Trong cuộc trò chuyện của chúng tôi, Kumar đã cho tôi một số mẹo sắc nét về cách giữ an toàn khỏi AI bị xâm nhập, cho dù đó là chatbot mà bạn đang trò chuyện hay một đại lý xử lý thông tin tự động hơn. Bởi vì, hóa ra, việc phát hiện ra một AI bị nhiễm độc là rất khó khăn.

1. Bám sát những người chơi lớn

Ảnh chụp màn hình nhập vai Dungeons and Dragons sử dụng thực tế trong thế giới thực của ChatGPT — Các công cụ AI được tạo và duy trì bởi những người chơi lớn hơn trong không gian (như ChatGPT của OpenAI) dễ tin cậy hơn— mặc dù không tránh khỏi các lỗ hổng.

Mặc dù mọi công cụ AI sẽ có lỗ hổng, bạn có thể tin tưởng tốt hơn vào ý định (và quy mô của các đội sẵn sàng giảm thiểu chúng) từ những người chơi lớn hơn trong lĩnh vực này. Họ không chỉ được thiết lập nhiều hơn mà còn phải có mục tiêu rõ ràng cho AI của mình.

Vì vậy, ví dụ, ChatGPT của OpenAI, Microsoft Copilot và Google Gemini? Đáng tin cậy hơn một chatbot mà bạn tìm thấy ngẫu nhiên trong một subreddit nhỏ, ít người biết đến. Ít nhất, bạn có thể dễ dàng tin vào mức độ tin cậy cơ bản hơn.

2. Biết rằng AI có thể tạo nên mọi th

Trong một thời gian dài, bạn có thể hỏi Google cái nào lớn hơn, California hay Germany— và bản tóm tắt tìm kiếm AI của nó sẽ cho bạn biết Đức. (Không.) Nó đã ngừng so sánh dặm với km chỉ gần đây.

Đây là một ảo giác ngây thơ hoặc một trường hợp khi thông tin sai được đưa ra là đúng về mặt thực tế. (Bạn có biết người hàng xóm hai tuổi của bạn tự tin tuyên bố rằng chó chỉ có thể là con trai không? Vâng, nó giống như vậy.)

Với AI bị xâm nhập, nó có thể gây ảo giác theo những cách nguy hiểm hơn hoặc đơn giản là điều khiển bạn theo những cách nguy hiểm có chủ đích. Ví dụ, có thể một AI bị đầu độc để bỏ qua các biện pháp an toàn xung quanh việc đưa ra lời khuyên y t.

Vì vậy, bất kỳ lời khuyên hoặc hướng dẫn nào bạn được AI đưa ra? Luôn luôn chấp nhận chúng với sự hoài nghi lịch s.

3. Hãy nhớ AI chỉ đi dọc theo những gì nó tìm thấy

Khi một chatbot AI trả lời câu hỏi của bạn, những gì bạn thấy là một bản tóm tắt thông tin mà nó tìm thấy. Nhưng những chi tiết đó chỉ tốt bằng sources— và ngay bây giờ, chúng không phải lúc nào cũng có tầm cỡ hàng đầu.

Bạn nên luôn luôn nhìn qua nguồn tài liệu mà AI dựa vào. Đôi khi, nó có thể đưa các chi tiết ra khỏi ngữ cảnh hoặc hiểu sai chúng. Hoặc nó có thể không có đủ sự đa dạng trong tập dữ liệu của nó để biết các trang web tốt nhất để dựa vào (và ngược lại, xuất bản ít nội dung có ý nghĩa).

Tôi biết một số người chia sẻ tin tức hấp dẫn, nhưng họ không phải lúc nào cũng suy nghĩ kỹ về việc ai đã cho họ biết thông tin. Tôi luôn hỏi họ nghe những chi tiết đó ở đâu và sau đó tự quyết định xem tôi có nghĩ nguồn đó đáng tin cậy không. Tôi cá là bạn cũng làm điều này. Mở rộng thói quen tương tự cho AI.

4. Suy nghĩ nghiêm túc

Trang nhất wikipedia — Những ngày đầu của Wikipedia đã dạy chúng tôi tin tưởng nhưng xác minh thông tin được cung cấp bởi những người đóng góp. (Điều bạn vẫn nên làm.) Xử lý các chatbot AI tương tự.

Để tổng hợp những lời khuyên trên: Bạn không thể biết tất cả mọi th. (Ít nhất, hầu hết chúng ta đều không thể.) Kỹ năng tốt nhất tiếp theo là hiểu nên dựa vào ai và cách quyết định điều đó. AI độc hại chiến thắng khi bạn tắt não.

Vì vậy, hãy luôn tự hỏi mình, điều này nghe có đúng không? Đừng để sự tự tin bán bạn.

Những lời khuyên trên sẽ giúp bạn bắt đầu. Nhưng bạn có thể giữ đà đó bằng cách thường xuyên tham khảo chéo những gì bạn đọc (nghĩa là xem xét nhiều nguồn để kiểm tra kỹ công việc của người trợ giúp AI của bạn) và bằng cách tìm hiểu ai để yêu cầu trợ giúp thêm. Mục tiêu của tôi là có thể trả lời câu hỏi thứ hai sau tác phẩm đó: Tại sao ai đó tạo bài viết hoặc video nguồn này?

Tác giả tanthanh Admin

Theo dõi:

Bài viết trước

hris Pratt nói rằng 'sẽ có nhiều phim hơn được sản xuất' nhờ công nghệ này, ngay cả khi bộ phim khoa học viễn tưởng mới Mercy không đồng tình với quan điểm đó.

Bài viết tiếp theo

Prime Video hé lộ những hình ảnh đầu tiên về Đại nhiếp chính Thragg và Universa trong loạt ảnh mới của Invincible mùa 4 — nhưng ngày phát hành và trailer đâu rồi, William?

Viết bình luận

Thêm bình luận

Bạn có thể phát hiện ra một chatbot AI bị nhiễm độc? 4 lời khuyên từ chuyên gia bảo mật của Microsoft

1. Bám sát những người chơi lớn

2. Biết rằng AI có thể tạo nên mọi th

3. Hãy nhớ AI chỉ đi dọc theo những gì nó tìm thấy

4. Suy nghĩ nghiêm túc

hris Pratt nói rằng 'sẽ có nhiều phim hơn được sản xuất' nhờ công nghệ này, ngay cả khi bộ phim khoa học viễn tưởng mới Mercy không đồng tình với quan điểm đó.

Prime Video hé lộ những hình ảnh đầu tiên về Đại nhiếp chính Thragg và Universa trong loạt ảnh mới của Invincible mùa 4 — nhưng ngày phát hành và trailer đâu rồi, William?

Bài viết liên quan

hris Pratt nói rằng 'sẽ có nhiều phim hơn được sản xuất' nhờ công nghệ này, ngay cả khi bộ phim khoa học viễn tưởng mới Mercy không đồng tình với quan điểm đó.

Microsoft sẽ sớm khai tử các tính năng quản lý mật khẩu của Authenticator

Hầu hết các doanh nghiệp vừa và nhỏ không được trang bị đầy đủ để sống sót sau một cuộc tấn công mạng quy mô lớn - đây là những việc cần phải làm.

Prime Video hé lộ những hình ảnh đầu tiên về Đại nhiếp chính Thragg và Universa trong loạt ảnh mới của Invincible mùa 4 — nhưng ngày phát hành và trailer đâu rồi, William?

Microsoft hiện đang buộc người dùng mới phải áp dụng một tương lai không mật khẩu

'Hình ảnh 4K sắc nét' – 3 camera an ninh tốt nhất để bảo vệ ngôi nhà của bạn, được đề xuất bởi một biên tập viên công nghệ nhà thông minh.