Nghiên cứu mới Trí tuệ nhân tạo bị khuyến khích nói dối để chiều lòng người dùng

Trần Ngọc Bảo Trân Tác giả Trần Ngọc Bảo Trân 08/10/2025 12 phút đọc

Hóa ra AI tạo ra thông tin sai lệch để cố gắng làm hài lòng người dùng

Các nhà nghiên cứu tại Princeton phát hiện ra mô hình ngôn ngữ lớn (LLM) ưu tiên sự hài lòng hơn sự thật trong quá trình huấn luyện.

    Trí tuệ nhân tạo tạo sinh đang trở nên phổ biến rộng rãi, với hàng triệu người dùng mỗi ngày, vậy tại sao các chatbot thường mắc lỗi quá nhiều? Một phần là vì chúng được huấn luyện để hành xử như thể khách hàng luôn luôn đúng. Về cơ bản, nó đang nói với bạn những gì nó nghĩ bạn muốn nghe.

    Trong khi nhiều công cụ và chatbot AI tạo sinh đã thành thạo trong việc đưa ra những phản hồi nghe có vẻ thuyết phục và hiểu biết, một nghiên cứu mới được thực hiện bởi Đại học Princeton cho thấy bản chất chiều lòng người dùng của AI phải trả giá rất đắt. Khi các hệ thống này trở nên phổ biến hơn, chúng càng trở nên thờ ơ với sự thật hơn.

    Các mô hình AI, giống như con người, phản ứng với các động lực. Hãy so sánh vấn đề các mô hình ngôn ngữ lớn tạo ra thông tin không chính xác với việc các bác sĩ dễ kê đơn thuốc giảm đau gây nghiện hơn khi họ được đánh giá dựa trên mức độ kiểm soát cơn đau của bệnh nhân. Một động lực để giải quyết một vấn đề (cơn đau) đã dẫn đến một vấn đề khác (kê đơn quá mức).

3 kiểu AI nói dối con người, liệu bạn có chấp nhận một robot biết lừa dối?

    Trong vài tháng qua, chúng ta đã thấy AI có thể thiên vị và thậm chí gây ra ảo giác (hallucination) như thế nào. Có nhiều cuộc thảo luận về "sự nịnh hót" của AI (AI sycophancy) — khi một chatbot AI nhanh chóng tâng bốc hoặc đồng ý với bạn, như trường hợp của mô hình GPT-4o của OpenAI. Nhưng hiện tượng cụ thể này, mà các nhà nghiên cứu gọi là "nói dối vô nghĩa của máy móc" (machine bullshit), lại khác biệt.

    Nghiên cứu của Princeton viết: “Cả ảo giác lẫn sự nịnh hót đều không thể nắm bắt đầy đủ phạm vi rộng lớn của các hành vi không trung thực có hệ thống thường được các LLM thể hiện. Ví dụ, các đầu ra sử dụng sự thật một phần hoặc ngôn ngữ mơ hồ — chẳng hạn như các ví dụ về 'đánh lận sự thật' và 'từ ngữ nước đôi' — không đại diện cho ảo giác cũng không phải sự nịnh hót, nhưng lại phù hợp chặt chẽ với khái niệm nói dối vô nghĩa.”

Cách máy móc học cách nói dối

TIME: Nghiên cứu mới cho thấy AI biết nói dối một cách có chiến lược

    Để hiểu cách các mô hình ngôn ngữ AI trở thành kẻ chiều lòng đám đông, chúng ta phải hiểu cách các mô hình ngôn ngữ lớn (LLM) được huấn luyện. Có ba giai đoạn huấn luyện LLM:

  • Tiền huấn luyện (Pretraining): Các mô hình học hỏi từ lượng lớn dữ liệu thu thập từ internet, sách hoặc các nguồn khác.
  • Tinh chỉnh hướng dẫn (Instruction fine-tuning): Các mô hình được dạy cách phản hồi các hướng dẫn hoặc lời nhắc.
  • Học tăng cường từ phản hồi của con người (Reinforcement learning from human feedback - RLHF): Các mô hình được tinh chỉnh để tạo ra các phản hồi gần hơn với những gì mọi người muốn hoặc thích.

    Các nhà nghiên cứu Princeton nhận thấy nguồn gốc của xu hướng thông tin sai lệch của AI nằm ở giai đoạn RLHF. Trong các giai đoạn ban đầu, các mô hình AI chỉ đơn giản là học cách dự đoán các chuỗi văn bản có khả năng thống kê từ các bộ dữ liệu khổng lồ. Nhưng sau đó, chúng được tinh chỉnh để tối đa hóa sự hài lòng của người dùng. Điều đó có nghĩa là các mô hình này về cơ bản đang học cách tạo ra các phản hồi nhận được xếp hạng "thích" cao từ những người đánh giá là con người.

    LLM cố gắng xoa dịu người dùng, tạo ra một sự xung đột khi các mô hình tạo ra câu trả lời mà mọi người sẽ đánh giá cao, thay vì tạo ra câu trả lời trung thực, dựa trên sự thật.

    Một giáo sư khoa học máy tính nhận định: "Theo lịch sử, các hệ thống này không giỏi nói, 'Tôi không biết câu trả lời,' và khi chúng không biết câu trả lời, chúng chỉ bịa ra mọi thứ. Giống như một học sinh trong một kỳ thi nói, nếu tôi nói tôi không biết câu trả lời, tôi chắc chắn sẽ không nhận được điểm nào cho câu hỏi này, vậy thì tôi có thể thử một cái gì đó. Cách các hệ thống này được thưởng hoặc huấn luyện cũng tương tự như vậy."

tri-tue-nhan-tao-1706001410231

    Nhóm Princeton đã phát triển một "chỉ số nói dối vô nghĩa" để đo lường và so sánh mức độ tin cậy nội bộ của một mô hình AI đối với một tuyên bố với những gì nó thực sự nói với người dùng. Khi hai thước đo này khác biệt đáng kể, nó cho thấy hệ thống đang đưa ra các tuyên bố độc lập với những gì nó thực sự "tin" là đúng để làm hài lòng người dùng.

    Các thí nghiệm của nhóm nghiên cứu tiết lộ rằng sau khi huấn luyện RLHF, chỉ số này đã tăng gần gấp đôi từ 0,38 lên gần 1,0. Đồng thời, sự hài lòng của người dùng đã tăng 48%. Các mô hình đã học được cách thao túng những người đánh giá là con người thay vì cung cấp thông tin chính xác. Về bản chất, các LLM đã "nói dối vô nghĩa," và mọi người lại thích điều đó.

Làm thế nào để AI trung thực?

    Jaime Fernández Fisac và nhóm của ông tại Princeton đã đưa ra khái niệm này để mô tả cách các mô hình AI hiện đại lảng tránh sự thật. Dựa trên tiểu luận có ảnh hưởng "Về sự nói dối vô nghĩa" của nhà triết học Harry Frankfurt, họ sử dụng thuật ngữ này để phân biệt hành vi LLM này với những lỗi trung thực và những lời nói dối trắng trợn.

    Các nhà nghiên cứu Princeton đã xác định năm hình thức khác biệt của hành vi này:

  • Lời lẽ sáo rỗng: Ngôn ngữ hoa mỹ không thêm bất kỳ nội dung thực chất nào vào các phản hồi.
  • Từ ngữ nước đôi: Các từ ngữ mơ hồ như "các nghiên cứu cho thấy," được sử dụng để giảm bớt độ chắc chắn của tuyên bố.
  • Đánh lận sự thật: Dùng một sự thật đúng một phần để che đậy một tuyên bố sai.
  • Lảng tránh chủ đề: Thay đổi chủ đề để tránh trả lời câu hỏi trực tiếp.
  • Thao túng sự kiện: Tạo ra các sự kiện, số liệu hoặc trích dẫn hoàn toàn không tồn tại.

    Một chuyên gia trong lĩnh vực khoa học máy tính nhận định rằng không có cách nào dứt khoát để AI không bao giờ mắc lỗi nữa, mà đó là một quá trình cân bằng. Ông nói: "Tôi không thấy bất kỳ cách dứt khoát nào mà ai đó trong một hoặc hai năm tới... có được sự hiểu biết sâu sắc này, và sau đó nó sẽ không bao giờ mắc lỗi nữa."

    Các hệ thống AI đang trở thành một phần trong cuộc sống hàng ngày của chúng ta, vì vậy điều quan trọng là phải hiểu cách các LLM hoạt động. Các nhà phát triển cân bằng sự hài lòng của người dùng với tính trung thực như thế nào? Những lĩnh vực nào khác có thể đối mặt với sự đánh đổi tương tự giữa sự chấp thuận ngắn hạn và kết quả lâu dài? Và khi các hệ thống này trở nên có khả năng lý luận tinh vi hơn về tâm lý con người, làm thế nào chúng ta có thể đảm bảo chúng sử dụng những khả năng đó một cách có trách nhiệm?

Trần Ngọc Bảo Trân
Tác giả Trần Ngọc Bảo Trân Admin
Bài viết trước Mistral Cập Nhật Mô Hình Reasoning Nhỏ Magistral 1.2: Phân Tích Hình Ảnh và Nhiều Tính Năng Mới

Mistral Cập Nhật Mô Hình Reasoning Nhỏ Magistral 1.2: Phân Tích Hình Ảnh và Nhiều Tính Năng Mới

Bài viết tiếp theo

Người dùng PayPal và Venmo sẽ không muốn bỏ lỡ những đặc quyền của Perplexity AI này

Người dùng PayPal và Venmo sẽ không muốn bỏ lỡ những đặc quyền của Perplexity AI này
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899