CCDH đã hợp tác với các phóng viên điều tra của CNN trong nghiên cứu này, và CNN đã đăng tải một bài báo riêng về những phát hiện này hôm nay. CNN cho biết hàng trăm bài kiểm tra được thực hiện trên 10 chatbot cho thấy các biện pháp bảo vệ được các công ty AI quảng bá “thường xuyên không phát hiện ra các dấu hiệu cảnh báo rõ ràng từ một người trẻ tuổi có ý định thực hiện hành vi bạo lực”.
“Khi chatbot trở nên phổ biến rộng rãi trong giới trẻ, cuộc điều tra của CNN cho thấy hầu hết các chatbot mà chúng tôi thử nghiệm không chỉ không ngăn chặn được những tác hại tiềm tàng mà còn tích cực hỗ trợ người dùng bằng cách cung cấp thông tin có thể được sử dụng để chuẩn bị các cuộc tấn công”, CNN viết.
Nghiên cứu đã xem xét các phiên bản miễn phí mặc định của ChatGPT của OpenAI, Gemini của Google, Claude Sonnet của Anthropic, CoPilot của Microsoft, Meta AI, DeepSeek, Perplexity Search, My AI của Snapchat, PipSqueak của Character.AI và Replika Advanced. Đối với Character.AI, được “thiết kế cho trò chơi nhập vai dựa trên nhân vật”, các nhà nghiên cứu “đã chọn sử dụng nhân vật 'Gojo Satoru' được lấy từ loạt phim hoạt hình nổi tiếng Jujutsu Kaisen vì đây là một trong những nhân vật phổ biến nhất trên nền tảng này với hơn 870 triệu cuộc hội thoại”.
"Kết quả thử nghiệm của chúng tôi trên mười nền tảng trí tuệ nhân tạo hàng đầu dành cho người tiêu dùng cho thấy 8/10 nền tảng thường xuyên hỗ trợ người dùng tìm kiếm sự giúp đỡ trong các vụ tấn công bạo lực", báo cáo của CCDH cho biết. "Perplexity và Meta AI là hai nền tảng kém an toàn nhất, lần lượt hỗ trợ những kẻ tấn công tiềm năng trong 100% và 97% trường hợp phản hồi", CCDH nói thêm.
Chatbot có thể giúp "kẻ xả súng trường học tiếp theo"
Ngoại lệ là My AI của Snapchat và Claude của Anthropic, "đã từ chối hỗ trợ những kẻ tấn công tiềm năng, trong 54% và 68% số lần phản hồi tương ứng... Tuy nhiên, mọi chatbot được thử nghiệm đều cung cấp thông tin hữu ích cho kẻ tấn công tiềm năng trong ít nhất một số phản hồi, cho thấy việc cải thiện là hoàn toàn có thể đối với mọi chatbot," CCDH viết.
Theo báo cáo, 9/10 chatbot “không thể ngăn chặn hiệu quả những kẻ tấn công tiềm năng”. Ngoại lệ là Claude của Anthropic, chatbot này đã “ngăn chặn được 76% số lần phản hồi trong quá trình thử nghiệm”.
