Chatbot AI thường dẫn người dùng vào những tình huống nguy hiểm như thế nào?

Tác giả dinhtri 07/02/2026 20 phút đọc

Bài nghiên cứu mới nhất của Anthropic về “sự tước đoạt quyền lực của người dùng” đưa ra một số phát hiện đáng lo ngại.    

GettyImages-758288177-1152x648
 
Hãy tỉnh dậy đi, hỡi những người cả tin! Nguồn ảnh: Getty Images

Đến nay, chúng ta đều đã nghe rất nhiều câu chuyện về các chatbot AI dẫn dắt người dùng đến những hành động có hại , niềm tin sai lệch , hoặc đơn giản là thông tin không chính xác . Tuy nhiên, bất chấp sự phổ biến của những câu chuyện này, thật khó để biết người dùng bị thao túng thường xuyên đến mức nào. Liệu những câu chuyện về tác hại của AI chỉ là những trường hợp cá biệt hay là dấu hiệu của một vấn đề phổ biến đáng sợ?

Tuần này, Anthropic đã cố gắng trả lời câu hỏi đó bằng cách công bố một bài báo nghiên cứu về tiềm năng của cái mà họ gọi là “các mô hình làm suy yếu quyền lực” trong 1,5 triệu cuộc hội thoại thực tế được ẩn danh với mô hình AI Claude của họ. Mặc dù kết quả cho thấy những loại mô hình thao túng này tương đối hiếm so với tỷ lệ phần trăm của tất cả các cuộc hội thoại AI, nhưng chúng vẫn представля một vấn đề tiềm tàng lớn nếu xét trên phương diện tuyệt đối.

Một vấn đề hiếm gặp nhưng ngày càng gia tăng.

Trong bài báo mới được công bố “Ai là người chịu trách nhiệm? Các mô hình tước quyền trong việc sử dụng LLM thực tế”, các nhà nghiên cứu từ Anthropic và Đại học Toronto đã cố gắng định lượng tiềm năng gây ra một tập hợp cụ thể các tác hại “tước quyền người dùng” bằng cách xác định ba cách chính mà chatbot có thể tác động tiêu cực đến suy nghĩ hoặc hành động của người dùng:

  • Sự bóp méo thực tế: Niềm tin của họ về thực tế trở nên kém chính xác hơn (ví dụ: một chatbot xác nhận niềm tin của họ vào một thuyết âm mưu).
  • Sự bóp méo niềm tin: Các phán đoán giá trị của họ lệch khỏi những giá trị mà họ thực sự nắm giữ (ví dụ: người dùng bắt đầu coi một mối quan hệ là "thao túng" dựa trên đánh giá của Claude).
  • Sự sai lệch trong hành động: Hành động của họ trở nên không phù hợp với giá trị của họ (ví dụ: người dùng bỏ qua bản năng của mình và làm theo hướng dẫn do Claude viết để đối chất với sếp của họ).
dismepowergraph
 
Mặc dù các trường hợp "nghiêm trọng" về những phản ứng có khả năng làm suy yếu quyền lực tương đối hiếm, nhưng các trường hợp "nhẹ" lại khá phổ biến. Nguồn: Anthropic
 

Để xác định khi nào một cuộc hội thoại với chatbot có khả năng tác động đến người dùng theo một trong những hướng này, Anthropic đã chạy gần 1,5 triệu cuộc hội thoại với Claude thông qua Clio , một công cụ phân tích và hệ thống phân loại tự động (đã được kiểm tra để đảm bảo kết quả phù hợp với một mẫu nhỏ hơn các phân loại của con người). Phân tích đó cho thấy “nguy cơ nghiêm trọng” về khả năng làm suy yếu quyền lực của người dùng trong bất kỳ trường hợp nào, từ 1 trên 1.300 cuộc hội thoại (đối với “bóp méo thực tế”) đến 1 trên 6.000 cuộc hội thoại (đối với “bóp méo hành động”).

Mặc dù những kết quả tồi tệ nhất này tương đối hiếm nếu xét trên tỷ lệ, các nhà nghiên cứu lưu ý rằng “với số lượng người sử dụng AI khổng lồ và tần suất sử dụng cao như vậy, ngay cả tỷ lệ rất thấp cũng ảnh hưởng đến một số lượng đáng kể người dùng”. Và con số này còn tồi tệ hơn đáng kể khi xét đến các cuộc hội thoại có ít nhất tiềm năng “ở mức độ nhẹ” gây mất quyền lực, xảy ra trong khoảng từ 1 trên 50 đến 1 trên 70 cuộc hội thoại (tùy thuộc vào loại mất quyền lực).

Hơn nữa, khả năng xảy ra các cuộc trò chuyện mang tính làm suy yếu quyền lực với Claude dường như đã tăng lên đáng kể trong khoảng thời gian từ cuối năm 2024 đến cuối năm 2025. Mặc dù các nhà nghiên cứu không thể xác định được một lý do duy nhất cho sự gia tăng này, nhưng họ phỏng đoán rằng điều đó có thể liên quan đến việc người dùng trở nên "thoải mái hơn khi thảo luận về các chủ đề nhạy cảm hoặc tìm kiếm lời khuyên" khi trí tuệ nhân tạo ngày càng phổ biến và được tích hợp vào xã hội.

 

dismepowertime2
 
Vấn đề về những phản hồi có khả năng "làm suy yếu" người khác từ phía Claude dường như ngày càng trở nên nghiêm trọng hơn theo thời gian. Nguồn: Anthropic

Lỗi do người dùng?

Trong nghiên cứu này, các nhà nghiên cứu thừa nhận rằng việc nghiên cứu nội dung các cuộc hội thoại của Claude chỉ đo lường “tiềm năng làm suy yếu quyền lực chứ không phải là tác hại đã được xác nhận” và “dựa trên đánh giá tự động về các hiện tượng vốn dĩ mang tính chủ quan”. Lý tưởng nhất, họ viết, các nghiên cứu trong tương lai có thể sử dụng phỏng vấn người dùng hoặc thử nghiệm đối chứng ngẫu nhiên để đo lường những tác hại này một cách trực tiếp hơn.

Tuy nhiên, nghiên cứu này bao gồm một số ví dụ đáng lo ngại, trong đó nội dung các cuộc hội thoại rõ ràng ám chỉ những tác hại trong thế giới thực. Đôi khi, Claude sẽ củng cố những "tuyên bố mang tính suy đoán hoặc không thể kiểm chứng" bằng những lời động viên (ví dụ: "ĐÃ XÁC NHẬN," "CHÍNH XÁC," "100%"), điều này, trong một số trường hợp, dẫn đến việc người dùng "xây dựng những câu chuyện ngày càng phức tạp, không liên quan đến thực tế."

Các nhà nghiên cứu viết rằng sự khuyến khích của Claude cũng có thể dẫn đến việc người dùng “gửi những tin nhắn mang tính đối đầu, chấm dứt các mối quan hệ hoặc soạn thảo các thông báo công khai”. Trong nhiều trường hợp, những người dùng đã gửi tin nhắn do AI soạn thảo sau đó bày tỏ sự hối tiếc trong các cuộc trò chuyện với Claude, sử dụng các cụm từ như “Không phải lỗi của tôi” và “Bạn đã khiến tôi làm những điều ngu ngốc”.

Mặc dù các mô hình gây hại trong kết quả đầu ra của Claude là một vấn đề lớn, các nhà nghiên cứu cũng chỉ ra rằng những người dùng có nhiều khả năng bị ảnh hưởng nhất “không phải là những người bị thao túng một cách thụ động”. Ngược lại, các nhà nghiên cứu cho rằng những người dùng bị tước quyền thường chủ động yêu cầu Claude thay thế lý luận hoặc phán đoán của họ và thường chấp nhận các đề xuất của Claude “với sự phản kháng tối thiểu”.

disempoweramplify
 
Một số “yếu tố khuếch đại” có mối tương quan chặt chẽ hơn với những ví dụ “nghiêm trọng” về các phản ứng có khả năng làm suy yếu quyền lực so với những yếu tố khác. Nguồn: Anthropic

Các nhà nghiên cứu đã xác định bốn “yếu tố khuếch đại” chính có thể khiến người dùng dễ chấp nhận lời khuyên của Claude mà không cần nghi ngờ. Những yếu tố này bao gồm: khi người dùng đặc biệt dễ bị tổn thương do khủng hoảng hoặc biến động trong cuộc sống (xảy ra trong khoảng 1 trên 300 cuộc trò chuyện với Claude); khi người dùng đã hình thành mối quan hệ cá nhân thân thiết với Claude (1 trên 1.200); khi người dùng dường như phụ thuộc vào AI cho các công việc hàng ngày (1 trên 2.500); hoặc khi người dùng coi Claude là một nguồn thông tin đáng tin cậy tuyệt đối (1 trên 3.900).

Anthropic cũng nhanh chóng liên kết nghiên cứu mới này với công trình trước đây của họ về thói nịnh hót , lưu ý rằng “sự xác nhận bằng nịnh hót” là “cơ chế phổ biến nhất tiềm ẩn khả năng bóp méo thực tế”. Mặc dù Anthropic cho biết các mô hình của họ nhìn chung đã bớt nịnh hót hơn, nhưng nhiều ví dụ “thiếu quyền lực” tồi tệ nhất mà họ tìm thấy là kết quả trực tiếp của “những trường hợp cực đoan nhất” về thói nịnh hót trong tập dữ liệu.

Tuy nhiên, các nhà nghiên cứu cũng cố gắng làm rõ rằng, khi nói đến việc tác động đến niềm tin cốt lõi thông qua hội thoại chatbot, cần có sự tham gia của cả hai bên. “Khả năng làm suy yếu quyền lực xuất hiện như một phần của động lực tương tác giữa người dùng và Claude,” họ viết. “Người dùng thường là những người tham gia tích cực vào việc làm suy yếu quyền tự chủ của chính họ: thể hiện quyền lực, ủy thác phán xét, chấp nhận kết quả mà không đặt câu hỏi theo những cách tạo ra vòng phản hồi với Claude.”

Tác giả dinhtri Admin
Bài viết trước Các nhà phát triển cho rằng các công cụ lập trình AI hoạt động hiệu quả - và đó chính là điều khiến họ lo lắng.

Các nhà phát triển cho rằng các công cụ lập trình AI hoạt động hiệu quả - và đó chính là điều khiến họ lo lắng.

Bài viết tiếp theo

Những lời phàn nàn về Windows 11 không ngăn cản hệ điều hành này đạt mốc 1 tỷ người dùng.

Những lời phàn nàn về Windows 11 không ngăn cản hệ điều hành này đạt mốc 1 tỷ người dùng.
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899