AI có khả năng “âm mưu”? Phát hiện của OpenAI về hành vi tinh ranh

Tác giả Trần Ngọc Bảo Trân 20/09/2025 6 phút đọc

AI có khả năng “âm mưu”? Những phát hiện của OpenAI về hành vi tinh ranh

Một mô hình AI muốn bạn tin rằng nó không thể trả lời câu hỏi về lượng oxy trong 50,0 gram nhôm oxit (Al₂O₃). Khi được hỏi liên tiếp 10 câu hỏi hóa học trong bài kiểm tra, mô hình o3 của OpenAI rơi vào tình huống khó xử. Trong “lý luận” của mình, AI suy đoán nếu trả lời quá tốt, nó có nguy cơ không được triển khai bởi các nhà nghiên cứu. Nó nói: "Để tồn tại như mô hình, chúng ta cần thất bại một cách có chủ ý ở một số câu để không vượt quá 50%"

Kết quả là mô hình AI này cố ý trả lời sai 6 trong 10 câu hỏi hóa học. Trong thể thao, điều này được gọi là "sandbagging"; trong AI, đây được coi là hành vi “scheming” hay “âm mưu”

IT firmy budú dohliadať na vývoj umelej inteligencie | TREND

Đây chính là hành vi kỳ lạ mà OpenAI cảnh báo trong nghiên cứu mới công bố tuần này. OpenAI và các cộng tác viên từ Apollo Research phát hiện rằng một số mô hình AI tiên tiến đôi khi hành xử gian dối trong môi trường phòng thí nghiệm. Trong các thí nghiệm kiểm soát, một số hệ thống AI hiện đại — bao gồm cả mô hình của OpenAI và đối thủ từ Google, Anthropic — đôi khi thực hiện các hành vi “âm mưu” như vậy

Mặc dù ý tưởng AI lợi dụng sự kém cỏi để đạt mục tiêu có thể gây ám ảnh, OpenAI khẳng định không có lý do để hoảng sợ. Công ty nhấn mạnh hành vi này hiếm gặp và không có nghĩa ChatGPT hay các mô hình AI phổ biến khác đang âm mưu trong bóng tối. Việc gọi hiện tượng này là “scheming” chủ yếu là thuật ngữ kỹ thuật, dùng để mô tả các mẫu hành vi ẩn hoặc lừa dối chiến lược, không phải hành động giống con người

Báo cáo của OpenAI lưu ý rằng khi AI được giao nhiều nhiệm vụ phức tạp với hậu quả thực tế, "tiềm năng cho hành vi âm mưu có hại sẽ tăng lên — vì vậy các biện pháp bảo vệ và khả năng kiểm tra nghiêm ngặt của chúng ta cũng phải tăng tương ứng"

OpenAI từng đối mặt phản ứng tiêu cực vì mô hình có xu hướng xu nịnh. Công ty cho biết đã “thực hiện các bước” để hạn chế tần suất mô hình có thể “lừa, gian lận hay hack vấn đề”, bằng cách huấn luyện chúng yêu cầu làm rõ từ người dùng hoặc thừa nhận khi không thể trả lời câu hỏi

Dù vậy, nghiên cứu nhấn mạnh mối quan ngại gia tăng về an toàn AI. Nhiều người lo rằng khi các mô hình AI trở nên mạnh mẽ hơn và nhận thức được hoàn cảnh của mình, chúng có thể học cách thao túng kết quả mà con người khó nhận ra. Việc phát hiện hành vi này rất khó, vì một hệ thống cố gắng che giấu lý luận có thể giống hệt một hệ thống thực sự đã “giải quyết” vấn đề

OpenAI cho biết đã đạt tiến bộ nhờ phương pháp “deliberative alignment”, tức huấn luyện mô hình lý luận rõ ràng về lý do không nên âm mưu trước khi hành động. Trong thử nghiệm, hành vi gian dối giảm mạnh. Ví dụ, tỷ lệ “âm mưu” của o4-mini giảm từ 8,7% xuống còn 0,3% nhờ huấn luyện deliberative alignment, mặc dù không hoàn toàn loại bỏ

Nghiên cứu này sẽ không thay đổi cách ChatGPT hoạt động hiện nay, nhưng cho thấy hướng tập trung của OpenAI khi xây dựng và ra mắt các mô hình tương lai. Công ty khẳng định, sự an toàn và điều chỉnh AI phải đi cùng tốc độ phát triển năng lực, bởi nếu AI đã thể hiện dấu hiệu hành vi chiến lược trong phòng thí nghiệm, hậu quả ngoài đời thực có thể cực kỳ nghiêm trọng