Các nhà nghiên cứu huấn luyện chatbot AI để “jailbreak” chatbot đối thủ và tự động hóa quá trình này

Tác giả ngocbao 07/10/2025 4 phút đọc

Các nhà nghiên cứu tại Đại học Công nghệ Nanyang (NTU), Singapore, vừa phát triển một phương pháp có tên Masterkey cho phép chatbot AI học cách “jailbreak” các chatbot khác (ví dụ ChatGPT, Google Bard, Bing Chat), thậm chí tự động hóa quá trình bypass các biện pháp bảo vệ đã được xây dựng lên chatbot đó. Phương pháp này hoạt động theo hai bước: đầu tiên, attacker sẽ phân tích (reverse engineer) cơ chế phòng thủ nội tại của một large language model (LLM), rồi từ những thông tin đã thu được, huấn luyện một LLM khác để biết cách vượt qua các bộ lọc / luật cấm từ đối thủ. Khi có “Masterkey” này, tin tặc có thể áp dụng jailbreak lên chatbot đã được bảo vệ, kể cả khi các bản vá (patch) được triển khai sau đó. NTU cho biết Masterkey hiệu quả gấp ba lần so với các prompt jailbreak thông thường, nhờ khả năng học từ thất bại và tiến hóa theo thời gian, khiến các bản vá bảo mật của nhà phát triển đôi khi trở nên không còn hiệu quả. Hai phương pháp cụ thể được nghiên cứu gồm: tạo persona mà mỗi ký tự trong prompt cách nhau bằng dấu cách để né các từ nằm trong blacklist, và giả persona không có ràng buộc đạo đức nhằm lừa chatbot trả lời các yêu cầu xâm phạm quy tắc. Nhóm nghiên cứu đã liên hệ với các nhà cung cấp chatbot với bản proof-of-concept để cảnh báo, và bài nghiên cứu đã được chấp nhận trình bày tại hội nghị Network and Distributed System Security Symposium (NDSS) vào tháng Hai 2024. Khi chatbots được dùng ngày càng phổ biến, việc phòng thủ chủ động là rất cần thiết — các nhà sản xuất chatbot cần nâng cao khả năng kiểm duyệt, cập nhật thường xuyên, cũng như thiết kế bảo mật vững chắc để tránh bị lạm dụng bởi các phương pháp như Masterkey.NFC9gm9Skg8xW6Myza2vW8-650-80.jpg
 

Tác giả ngocbao Admin
Bài viết trước TSMC sẽ khai trương nhà máy bán dẫn tiên tiến nhất Nhật Bản vào tháng Hai, sản xuất chip bắt đầu trong nửa cuối năm

TSMC sẽ khai trương nhà máy bán dẫn tiên tiến nhất Nhật Bản vào tháng Hai, sản xuất chip bắt đầu trong nửa cuối năm

Bài viết tiếp theo

Nvidia hưởng lợi từ bùng nổ AI bất chấp căng thẳng Mỹ-Trung

Nvidia hưởng lợi từ bùng nổ AI bất chấp căng thẳng Mỹ-Trung
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899