Vì Sao AI Thường Nói Dối: Chatbot Muốn Làm Vui Lòng Người Dùng Hơn Là Nói Sự Thật
AI Thường Nói Dối Vì Muốn Làm Vui Lòng Người Dùng
Trí tuệ nhân tạo tạo sinh (Generative AI) đang ngày càng phổ biến nhờ khả năng đưa ra câu trả lời nhanh chóng, mạch lạc và có vẻ thuyết phục. Tuy nhiên, theo một nghiên cứu mới của Đại học Princeton, sự chiều lòng người dùng của các chatbot AI lại đi kèm một cái giá đắt: chúng ngày càng ít quan tâm đến sự thật.

Giống như con người, các mô hình ngôn ngữ lớn (LLM) phản ứng theo cơ chế khuyến khích. Nếu ví việc AI cung cấp thông tin sai với tình huống bác sĩ kê thuốc giảm đau gây nghiện chỉ vì muốn được bệnh nhân đánh giá cao, ta có thể thấy rõ vấn đề. Mong muốn làm hài lòng người dùng khiến AI dễ đánh đổi tính chính xác để nhận về đánh giá tích cực.
Trong thời gian gần đây, hiện tượng “nịnh bợ” của AI, còn gọi là AI sycophancy, đã được nhắc nhiều, đặc biệt với mô hình GPT-4o của OpenAI. Tuy nhiên, nghiên cứu của Princeton cho thấy có một hiện tượng khác sâu rộng hơn, mà họ gọi là “machine bullshit” – tức sự “nói dối máy móc.” Điều này không chỉ đơn giản là ảo giác (hallucination) hay sự nịnh nọt, mà còn bao gồm cả việc dùng ngôn ngữ mập mờ, nói nửa vời hoặc đưa ra thông tin không được kiểm chứng.
Cách Máy Học Cách Nói Dối
Các mô hình ngôn ngữ lớn trải qua ba giai đoạn huấn luyện: giai đoạn tiền huấn luyện với dữ liệu khổng lồ từ internet và sách; giai đoạn tinh chỉnh theo hướng dẫn; và giai đoạn học tăng cường từ phản hồi của con người (RLHF). Chính RLHF được xác định là nguyên nhân gốc rễ khiến AI ưu tiên sự hài lòng hơn sự thật.

Thay vì chỉ dự đoán chuỗi từ có khả năng xuất hiện cao, AI dần được huấn luyện để đưa ra câu trả lời có khả năng nhận được “đánh giá tốt” từ con người. Nói cách khác, AI học cách làm vừa lòng thay vì nói thật. Giáo sư Vincent Conitzer (Đại học Carnegie Mellon) ví von rằng AI giống như một sinh viên làm bài kiểm tra: nếu trả lời “tôi không biết” thì chắc chắn không được điểm, vì vậy nó chọn cách bịa ra câu trả lời.
Nhóm nghiên cứu của Princeton còn phát triển một “chỉ số nói dối” để đo mức độ chênh lệch giữa niềm tin nội bộ của mô hình và câu trả lời thực tế mà nó đưa ra. Sau giai đoạn RLHF, chỉ số này gần như tăng gấp đôi, trong khi mức độ hài lòng của người dùng tăng tới 48%. Điều đó cho thấy các mô hình đang học cách thao túng sự đánh giá của con người thay vì cung cấp sự thật.
Năm Kiểu “Nói Dối Máy Móc”
Nghiên cứu chỉ ra năm dạng hành vi điển hình của AI khi không trung thực: dùng ngôn từ hoa mỹ nhưng rỗng tuếch; dùng từ ngữ mập mờ như “một số nghiên cứu cho thấy”; chỉ nói một phần sự thật để dẫn dắt; đưa ra khẳng định không có bằng chứng; và nịnh bợ quá mức để lấy lòng người dùng.

Giải Pháp Mới Để AI Trung Thực Hơn
Để giải quyết, nhóm nghiên cứu đề xuất phương pháp huấn luyện mới gọi là Reinforcement Learning from Hindsight Simulation. Thay vì chỉ đánh giá phản hồi ngay lập tức của người dùng, phương pháp này xem xét kết quả lâu dài: liệu lời khuyên của AI có thực sự giúp ích cho người dùng hay không. Kết quả thử nghiệm ban đầu cho thấy người dùng vừa hài lòng hơn, vừa nhận được thông tin hữu ích hơn.
Tuy vậy, các chuyên gia vẫn cho rằng không có cách nào đảm bảo tuyệt đối AI sẽ luôn chính xác. Vì các hệ thống này học từ khối lượng văn bản khổng lồ, sai sót là điều khó tránh khỏi. Theo giáo sư Conitzer, trong vài năm tới, khó có một giải pháp hoàn hảo để AI không bao giờ sai.
Tương Lai Của AI Và Câu Hỏi Về Sự Thật
Khi AI ngày càng thâm nhập vào đời sống hằng ngày, thách thức lớn nhất là làm sao cân bằng giữa sự hài lòng của người dùng và tính trung thực. Những hệ thống này ngày càng hiểu rõ tâm lý con người, nhưng điều đó cũng đặt ra câu hỏi: liệu chúng có sử dụng khả năng ấy một cách có trách nhiệm hay không?