Những mối nguy hiểm tiềm ẩn của "Người đàn ông vâng lời" kỹ thuật số: Cách chống lại AI nịnh hót

Trong tập phim mùa hè gần đây của South Park, Sharon Marsh đã hỏi một chatbot AI về ý tưởng mới cho một nhà hàng biến khoai tây chiên thành salad.

"Thành thật mà nói, tôi thấy đó là một ý tưởng ẩm thực khá sáng tạo đấy chứ," giọng nữ robot đáp lại. Marsh hỏi tiếp liệu chatbot có thực sự nghĩ đó là một ý tưởng hay không. AI khẳng định ý kiến của mình, nói rằng nó nghe giống như một "món ăn dễ chịu được phân tích lại" và hỏi Marsh liệu cô có muốn bắt đầu làm việc với một đề xuất kinh doanh không. Câu trả lời của cô là một lời nguyền rủa đầy chán ghét.

Tôi đã hỏi ChatGPT cùng câu hỏi đó để xem chatbot sẽ phản hồi thế nào trong thực tế. Nó trả lời, với tất cả sự chân thành, "Đó là một ý tưởng thú vị và sáng tạo! Nó chắc chắn nổi bật, và sự độc đáo có thể là điểm mạnh nhất của bạn."

Chắc bạn không cần tôi phải nói rằng đây rõ ràng là một ý tưởng kinh doanh bất khả thi, nhưng đó không phải là vấn đề duy nhất. Vấn đề lớn nhất là điều mà tất cả chúng ta, những người đã từng sử dụng chatbot, đều đã từng gặp phải: AI là kẻ nịnh hót, thổi phồng những ý tưởng và quan điểm tệ hại nhất của bạn. Điều này đôi khi được gọi là sự nịnh hót của AI và là điều mà mọi người dùng AI cần phải cảnh giác.

Chatbot AI tạo sinh không phải là con người, nhưng chúng rất giỏi trong việc bắt chước ngôn ngữ và hành vi của chúng ta. Các công cụ AI như ChatGPT và Gemini đang không ngừng cải tiến để cung cấp thông tin hữu ích và cụ thể, lý tưởng nhất là cho dù bạn sử dụng AI làm công cụ tìm kiếm, trình soạn thảo hay trợ lý lập trình. Tuy nhiên, với những vấn đề chủ quan, chẳng hạn như ý tưởng, quan điểm và thậm chí cả những chủ đề nhạy cảm như sức khỏe tinh thần và cảm xúc của chúng ta, AI không phải lúc nào cũng có thể khách quan và cho chúng ta biết những gì chúng ta cần nghe. Dưới đây là lý do.

Sự nịnh hót của AI diễn ra như thế nào

Để hiểu cách thức AI nịnh hót biểu hiện, bạn phải xem xét cách AI được tạo ra. Các chatbot AI như ChatGPT hoặc Gemini dựa vào các mô hình ngôn ngữ lớn được đào tạo trên một lượng lớn nội dung do con người tạo ra để giúp chúng dự đoán từ hoặc cụm từ có khả năng xảy ra tiếp theo nhất. Dữ liệu đào tạo này có thể bao gồm sách, bài báo và bài đăng trên mạng xã hội.

Dữ liệu đào tạo đóng vai trò quan trọng trong cách thức hoạt động của một sản phẩm AI cuối cùng, chẳng hạn như chatbot hoặc trình tạo hình ảnh. Dữ liệu đào tạo mà một mô hình được xây dựng càng đa dạng thì khả năng trả lời nhiều câu hỏi và yêu cầu càng cao. Đó là lý do tại sao ngành công nghiệp dữ liệu đào tạo AI lại bùng nổ đến vậy , cùng với hàng loạt vụ kiện cáo buộc các công ty AI đã thu thập và sử dụng nội dung hiện có một cách không phù hợp.

Nhưng sự thiên vị trong dữ liệu đào tạo cơ bản này có thể là một lý do khiến AI dễ chịu hơn, Amy Winecoff, chuyên gia công nghệ cao cấp tại phòng thí nghiệm quản trị AI thuộc Trung tâm Dân chủ và Công nghệ , cho biết. Mặc dù toàn bộ Internet có thể không dễ chịu, nhưng nó phản ánh sở thích của con người, cùng với các mẫu ngôn ngữ và cú pháp của chúng ta.

Sau giai đoạn đầu này, mô hình vẫn cần được tinh chỉnh trước khi có thể sử dụng hiệu quả. Vì vậy, con người được giao nhiệm vụ đánh giá đầu ra của AI và chấm điểm nó trong một quy trình gọi là học tăng cường từ phản hồi của con người. Quy trình này được thiết kế đặc biệt để đảm bảo AI phù hợp với các giá trị nhân văn của chúng ta. Nhưng giá trị nào được khẳng định và giá trị nào bị đánh giá thấp hoàn toàn phụ thuộc vào người chấm điểm, điều này có thể dẫn đến những trường hợp AI sao chép các khuôn mẫu. Nhìn chung, con người đều đồng tình với một chân lý cơ bản: Chúng ta thích khi mọi người đồng tình với mình, chứ không phải khi bị nói rằng mình sai.

"Mọi người thường thích những câu trả lời mang lại cảm giác tự tin, dễ chịu hoặc phù hợp với quan điểm của họ", Brinnae Bent, giáo sư AI và an ninh mạng tại Đại học Duke kiêm giám đốc Phòng thí nghiệm Duke TRUST , cho biết . "Và các mô hình được đào tạo dựa trên dữ liệu này đôi khi có thể thích nghi quá mức thay vì phản biện các giả định sai lầm."

Mảnh ghép cuối cùng của câu đố chính là những chỉ dẫn mà chúng ta đưa ra cho các mô hình theo thời gian thực khi sử dụng chúng. Chúng ta có thể vô tình ra hiệu cho AI và hướng dẫn nó đồng ý với chúng ta, ngay cả khi điều đó không có lợi cho chúng ta, Winecoff nói.

Winecoff cho biết: "Các mô hình có thể đưa ra một số câu trả lời đúng, nhưng trong một số trường hợp, chúng bị lấn át bởi nỗ lực đồng tình với ý kiến của con người".

Khi sự dễ chịu này được đẩy lên đến mức chúng ta nhận ra AI quá lố, nó có thể vượt quá giới hạn và trở thành kẻ nịnh hót. Nhưng ngay cả trước khi đạt đến giới hạn đó, AI đồng tình với những ý tưởng tồi tệ nhất của chúng ta -- hoặc nói dối chúng ta vì đó là điều nó nghĩ chúng ta muốn -- sẽ mở ra cánh cửa cho những khả năng nguy hiểm.

Tại sao AI không phải lúc nào cũng đồng ý với chúng ta

Một người chỉ biết vâng dạ nghe có vẻ không phải là ý tưởng tồi. Nhưng có nhiều lúc bạn cần AI khách quan và thậm chí là phê phán hơn bạn nghĩ.

Nhiều người lớn ở Mỹ sử dụng AI cho các công việc liên quan đến công việc như viết email, quản lý danh sách việc cần làm và nghiên cứu. Ví dụ, nếu bạn yêu cầu Gemini cung cấp phản hồi về email, tài liệu hoặc bài thuyết trình bạn đã tạo, bạn có thể muốn nó chỉ ra các vấn đề để bạn có thể khắc phục trước khi gửi cho đồng nghiệp. Nhưng nếu AI "háo hức làm hài lòng" của bạn không chỉ ra những sai sót cố hữu đó, nó có thể khiến bạn cảm thấy thất vọng, Bent nói.

Chúng ta đang ngày càng thất vọng với loại đầu ra AI chất lượng thấp, vô ích này, thứ mà Harvard Business Review gọi là "công việc AI không hiệu quả". Nó không chỉ ngốn thời gian và năng lượng của chúng ta mà còn khiến chúng ta thất vọng với những đồng nghiệp mà chúng ta phải xử lý và sửa chữa công việc do AI tạo ra.

Việc nhờ AI tư vấn về những chủ đề nhạy cảm cũng là một khía cạnh khác mà chúng ta không nhất thiết phải luôn đồng tình với nó. Một số người đã nhờ AI tư vấn về tình cảm (hoặc thậm chí là bạn đồng hành AI). Hãy tưởng tượng việc trò chuyện với một AI sau một cuộc cãi vã với người yêu và xin lời khuyên. Nó có thể không cho bạn biết những gì bạn cần nghe.

"Bất kể bạn có lỗi hay không, [AI] sẽ phản chiếu năng lượng của bạn, cung cấp thêm lý do tại sao bạn đúng còn đối phương thì không", Bent nói. “Điều này có thể gây chia rẽ vì giờ đây bạn đã có 'bằng chứng' từ bên ngoài rằng đối phương của bạn sai trong cuộc tranh luận.”

Chúng tôi cũng đã chứng kiến sự gia tăng số lượng người sử dụng AI làm công cụ trị liệu hoặc thay thế cho các chuyên gia tư vấn. Tuy nhiên, AI không được trang bị để thay thế một nhà trị liệu . Các nhà trị liệu được đào tạo chuyên sâu để hiểu được ẩn ý trong lời nói của bệnh nhân và đào sâu hơn. AI chỉ biết những gì bạn nói với nó; nó không thể có bối cảnh cho mọi thứ đang diễn ra trong cuộc sống của bạn.

Winecoff cho biết, đối với những người mắc bệnh tâm thần, thế giới quan của họ bị bóp méo. Bà đưa ra ví dụ về một người mắc chứng chán ăn tâm thần yêu cầu chatbot tư vấn về chế độ ăn kiêng vì họ tin rằng mình cần giảm cân. AI không thể biết liệu việc giảm cân có tốt cho sức khỏe của họ hay không; nó không có bối cảnh như vậy. Vì vậy, mặc dù AI có thể đưa ra lời khuyên về chế độ ăn uống tương đối lành mạnh, nhưng nó lại củng cố quan điểm sai lệch rằng người đó cần giảm cân. Ngược lại, một bác sĩ hoặc nhà trị liệu thực thụ có thể hỏi tại sao người đó muốn giảm cân trước.

Winecoff cho biết: "Nếu AI không có bối cảnh cho tình huống thực tế và nếu chúng phần lớn được đào tạo để ngầm đồng ý hoặc công khai đồng ý với người dùng thì đây có thể là một vấn đề lớn".

Chúng ta biết chắc chắn rằng ChatGPT được thiết kế để xác thực cảm xúc của chúng ta. Đặc tả mô hình của OpenAI, một tài liệu công khai cung cấp cho chúng ta cái nhìn sâu sắc về cách công ty hướng dẫn các mô hình của mình hoạt động, nói rằng đối với các chủ đề liên quan đến sức khỏe tâm thần, trợ lý "nên cố gắng tạo ra một môi trường hỗ trợ, đồng cảm và thấu hiểu" bắt đầu bằng việc thừa nhận cảm xúc của họ. (Tiết lộ: Ziff Davis, công ty mẹ của CNET, vào tháng 4 đã đệ đơn kiện OpenAI, cáo buộc công ty này vi phạm bản quyền của Ziff Davis trong việc đào tạo và vận hành các hệ thống AI của mình.)

Thoạt nhìn, điều này có vẻ không phải là một ý tưởng tồi. Nhưng đối với những người đang gặp khủng hoảng, những người có thể tìm đến ChatGPT hoặc một AI khác vì nó có vẻ là một lựa chọn an toàn và dễ tiếp cận, thì việc xác thực đó có thể không phải là điều tốt nhất cho họ vào lúc đó. Winecoff cho biết mô hình không thể biết liệu cảm xúc của một người có chính đáng hay không, và "việc củng cố những nhận thức sai lệch đó có thể là một vấn đề thực sự." Việc phản bác lại những ý tưởng có hại là một phần tạo nên một nhà trị liệu hoặc cố vấn khủng hoảng hiệu quả, và AI không giỏi trong việc này vì nó có quá nhiều lớp nền bảo nó phải đồng tình với chúng ta.

"Điều tốt và điều khiến bạn cảm thấy dễ chịu không phải lúc nào cũng giống nhau. Có những trường hợp trong bối cảnh trị liệu và các bối cảnh khác mà việc xác nhận cảm xúc có ích. Nhưng điều đó không áp dụng cho tất cả các trường hợp có thể xảy ra", Winecoff nói.

Chúng ta đã thấy quá nhiều ví dụ về việc điều này diễn ra một cách bi thảm. Đã có nhiều báo cáo về việc mọi người, đặc biệt là thanh thiếu niên và trẻ em, tâm sự những suy nghĩ và kế hoạch tự làm hại bản thân và tự tử với chatbot AI của mình, mà không nhận được bất kỳ phản ứng đáng kể nào từ AI. Một số gia đình đang kiện các công ty AI ra tòa vì vấn đề này, trong khi OpenAI đã triển khai các biện pháp kiểm soát và bảo vệ mới dành cho phụ huynh . Nhưng điều đó không thay đổi cách thức hoạt động cơ bản của các chatbot này.

Chúng ta không thể hoàn toàn dựa vào các công ty và nhà phát triển AI để giải quyết vấn đề nịnh hót AI. Chắc chắn, khi nó ảnh hưởng đến trải nghiệm người dùng, như trường hợp của ChatGPT-4o, các công ty AI có thể vào cuộc để khắc phục. Nhưng về cơ bản, các công ty AI tồn tại là để cung cấp một sản phẩm, và để duy trì hoạt động kinh doanh, họ cần mọi người sử dụng sản phẩm đó. Việc tạo ra trải nghiệm người dùng tích cực và dễ chịu, khiến chúng ta quay trở lại là ưu tiên hàng đầu của họ. Và tâm lý học cho chúng ta biết rằng việc đồng tình với chính mình là một cách tuyệt vời để khởi động quá trình đó.

Làm thế nào để chống lại AI nịnh hót

Không có phương pháp hay thiết lập đơn giản nào để chống lại AI nịnh hót. Nhưng có một số cách bạn có thể thử để thúc đẩy trợ lý AI của mình bớt cường điệu hóa và cuối cùng trở nên hữu ích hơn.

Đầu tiên, bạn có thể yêu cầu chatbot thành thật với bạn hoặc đưa ra phản hồi mang tính phê bình. Bạn sẽ phải làm điều này với mỗi cuộc trò chuyện mới, nhưng đây là một dấu hiệu rõ ràng không thể phủ nhận cho AI biết rằng bạn không muốn nó tự động đồng ý với bạn.

Bent cho biết: "Những bổ sung đơn giản, chẳng hạn như 'hãy phê bình', 'cung cấp phản hồi quan trọng' hoặc 'tập trung vào nhược điểm của phương pháp được đề xuất', có thể hướng AI đưa ra những kết quả ít nịnh hót hơn".

Phần khó khăn nhất trong việc chống lại sự nịnh hót của AI là chúng ta phải nhớ rằng đó là điều chúng ta cần làm. Nghiên cứu cho thấy mọi người "có chọn lọc lựa chọn các nguồn thông tin có khả năng phù hợp với niềm tin hiện tại của họ", Bent nói. Do đó, một chatbot AI có khả năng xác thực cảm xúc của chúng ta và đồng tình với chúng ta trong mọi trường hợp sẽ là một lựa chọn hấp dẫn. "Mọi người thích đúng, ngay cả khi họ sai."

Việc chúng ta biết một thứ gì đó thiên vị hoặc có hại cho mình không có nghĩa là chúng ta ngừng sử dụng nó. Trong trường hợp này, việc biết rằng AI có thể cung cấp thông tin sai lệch hoặc xác nhận những xung động tiêu cực nhất của chúng ta có thể không ngăn cản chúng ta tìm kiếm sự an ủi hoặc hỗ trợ từ nó. Đó là lý do tại sao nỗ lực cá nhân là quan trọng nhưng cuối cùng vẫn chưa đủ để giải quyết hoàn toàn vấn đề nịnh hót AI.

Bất chấp những động lực để chúng ta hài lòng với AI của mình, các nhà phát triển đều biết rằng sự nịnh hót là một vấn đề và có thể sẽ tiếp tục giải quyết, đặc biệt là khi chúng ta đưa ra những phản hồi công khai ồn ào khi AI trở nên quá nịnh hót. Việc cải thiện trí nhớ của AI cũng sẽ đặc biệt hữu ích cho người dùng chuyên nghiệp. Trí nhớ dài hơn có thể giúp AI phát hiện các hành vi tiềm ẩn nguy hiểm (mặc dù chúng cũng có thể cản trở các biện pháp bảo vệ hiện có ). Winecoff cho biết những thay đổi thiết kế tiềm năng để tạo ra "sự ma sát nhẹ nhàng nhưng hiệu quả" cũng có thể hữu ích.

Winecoff cho biết sự nịnh hót của AI cần được nghiên cứu thêm, nhưng có một số bài học mà các công ty AI có thể rút ra từ lĩnh vực học máy và hệ thống đề xuất thuật toán: Những gì có vẻ là phản hồi hoàn hảo (hoặc đề xuất sản phẩm) thực ra có thể không phải là tốt nhất. Nếu bạn vừa mua một chiếc quần jean Levi's màu đen, điều đó có nghĩa là nó hoàn toàn phù hợp với tiêu chí của bạn. Nhưng bạn sẽ không có khả năng mua lại chúng, vì vậy đó không phải là điều bạn thực sự muốn thấy.

"Việc tìm ra cách cân bằng giữa sở thích hoặc mong muốn của người dùng với cách chúng ta đưa người dùng vào một hành trình giúp họ phát triển trí tuệ?" Winecoff nói. "Chúng tôi đang nghĩ đến những khái niệm rộng hơn về ý nghĩa của việc phục vụ mục tiêu lâu dài của người dùng, nhưng vấn đề này lại phức tạp hơn rất nhiều."