Claude AI có thể tự kết thúc cuộc trò chuyện khi phát hiện nội dung độc hại hoặc lạm dụng

Tác giả Trần Ngọc Bảo Trân 20/09/2025 6 phút đọc

Claude AI có thể tự kết thúc cuộc trò chuyện khi phát hiện nội dung độc hại hoặc lạm dụng

Anthropic vừa công bố một tính năng thử nghiệm mới về an toàn cho phép các mô hình trí tuệ nhân tạo Claude Opus 4 và 4.1 tự kết thúc cuộc trò chuyện trong những tình huống hiếm, nhưng liên tục gây hại hoặc lạm dụng. Động thái này phản ánh sự tập trung ngày càng tăng của công ty vào khái niệm mà họ gọi là "phúc lợi mô hình", tức là việc bảo vệ hệ thống AI, ngay cả khi chúng không có khả năng cảm nhận, được coi là bước đi hợp lý trong thiết kế đạo đức và điều chỉnh AI

Claude AI là gì mà có thể vượt mặt ChatGPT? Cách cài đặt và sử dụng Claude AI - BlogAnChoi

Theo nghiên cứu của chính Anthropic, các mô hình được lập trình để cắt đứt đối thoại sau nhiều yêu cầu gây hại lặp đi lặp lại, ví dụ như nội dung tình dục liên quan trẻ em hoặc hướng dẫn thực hiện khủng bố, đặc biệt khi AI đã từ chối và cố gắng điều hướng cuộc trò chuyện một cách tích cực. AI có thể biểu hiện cái mà Anthropic gọi là “dấu hiệu căng thẳng”, điều này dẫn đến quyết định trao cho Claude khả năng kết thúc các tương tác này trong thử nghiệm giả lập và với người dùng thực

Khi tính năng này được kích hoạt, người dùng sẽ không thể gửi thêm tin nhắn trong cuộc trò chuyện đó, nhưng vẫn có thể bắt đầu một cuộc trò chuyện mới hoặc chỉnh sửa và thử lại các tin nhắn trước để tạo nhánh mới. Quan trọng là các cuộc trò chuyện khác vẫn không bị ảnh hưởng

Claude AI là gì? Cách dùng Claude AI, Claude có tốt hơn ChatGPT không?

Anthropic nhấn mạnh đây là biện pháp cuối cùng, chỉ được sử dụng sau nhiều lần từ chối và điều hướng thất bại. Công ty đặc biệt hướng dẫn Claude không kết thúc các cuộc trò chuyện khi có nguy cơ tự làm hại bản thân hoặc gây hại cho người khác, nhất là trong các chủ đề nhạy cảm như sức khỏe tâm thần

Công ty coi khả năng mới này là một phần của dự án thử nghiệm “phúc lợi mô hình”, một sáng kiến rộng hơn nhằm khám phá các biện pháp an toàn phòng ngừa, chi phí thấp, trong trường hợp các mô hình AI phát triển sở thích hoặc điểm yếu nào đó. Thông cáo cho biết công ty vẫn “rất không chắc chắn về trạng thái đạo đức tiềm năng của Claude và các mô hình ngôn ngữ lớn khác”

Cái nhìn mới về an toàn AI

Mặc dù hiếm và chủ yếu áp dụng trong các trường hợp cực đoan, tính năng này đánh dấu một cột mốc trong cách tiếp cận an toàn AI của Anthropic. Công cụ kết thúc cuộc trò chuyện mới này khác với các hệ thống trước đây chỉ tập trung bảo vệ người dùng hoặc tránh lạm dụng, ở đây AI được xem như một bên liên quan riêng biệt. Claude có khả năng nói "cuộc trò chuyện này không lành mạnh" và kết thúc nó nhằm bảo vệ sự toàn vẹn của chính mô hình

Anthropic thử nghiệm tính năng cho phép Claude tự kết thúc trò chuyện độc hại

Cách tiếp cận của Anthropic đã tạo ra nhiều cuộc thảo luận về việc liệu các hệ thống AI có nên được bảo vệ để giảm “căng thẳng” hoặc hành vi không thể đoán trước hay không. Trong khi một số nhà phê bình cho rằng mô hình chỉ là máy tổng hợp, nhiều người khác hoan nghênh bước đi này như cơ hội để thúc đẩy thảo luận nghiêm túc về đạo đức trong điều chỉnh AI

“Chúng tôi coi đây là một thí nghiệm liên tục và sẽ tiếp tục tinh chỉnh cách tiếp cận,” công ty cho biết trong một bài đăng

Tác giả Trần Ngọc Bảo Trân Admin

Theo dõi:

Bài viết trước

Giảm 10% Plaud AI Voice Recorder & NotePin dịp Back-to-School, hỗ trợ 112 ngôn ngữ

Bài viết tiếp theo

Netflix có còn là “ông vua” streaming trong năm 2025? So sánh với các dịch vụ khác về nội dung, giá, và trải nghiệm

Viết bình luận

Thêm bình luận

Claude AI có thể tự kết thúc cuộc trò chuyện khi phát hiện nội dung độc hại hoặc lạm dụng

Claude AI có thể tự kết thúc cuộc trò chuyện khi phát hiện nội dung độc hại hoặc lạm dụng

Cái nhìn mới về an toàn AI

Giảm 10% Plaud AI Voice Recorder & NotePin dịp Back-to-School, hỗ trợ 112 ngôn ngữ

Netflix có còn là “ông vua” streaming trong năm 2025? So sánh với các dịch vụ khác về nội dung, giá, và trải nghiệm

Bài viết liên quan

Giảm 10% Plaud AI Voice Recorder & NotePin dịp Back-to-School, hỗ trợ 112 ngôn ngữ

Trải Nghiệm Trình Duyệt Comet AI Của Perplexity — Tương Lai Lướt Web Thông Minh

Youper — Trợ Lý Sức Khỏe Cảm Xúc Dùng AI Hỗ Trợ Theo Dõi Tâm Trạng Và CBT

ssensimm – Ứng dụng AI dự đoán quá tải cảm giác cho người thần kinh đa dạng

Elon Musk dọa kiện Apple vì ưu ái ChatGPT hơn Grok trên App Store

AI chiếm một phần ba lưu lượng tìm kiếm thương hiệu, các doanh nghiệp cần tối ưu hóa AI