Có một mô hình mòn trong sự phát triển của chatbot AI. Các nhà nghiên cứu phát hiện ra một lỗ hổng và khai thác nó để làm điều gì đó xấu. Nền tảng này giới thiệu một lan can bảo vệ ngăn chặn cuộc tấn công hoạt động. Sau đó, các nhà nghiên cứu nghĩ ra một tinh chỉnh đơn giản mà một lần nữa gây nguy hiểm cho người dùng chatbot.
Lý do thường xuyên hơn không phải là AI vốn được thiết kế để tuân thủ các yêu cầu của người dùng đến mức các lan can có tính phản ứng và đặc biệt, nghĩa là chúng được xây dựng để ngăn chặn một kỹ thuật tấn công cụ thể thay vì loại lỗ hổng rộng hơn có thể thực hiện được. Nó tương đương với việc đặt một lan can bảo vệ đường cao tốc mới để đối phó với một vụ tai nạn gần đây của một chiếc ô tô nhỏ gọn nhưng không bảo vệ được các loại phương tiện lớn hơn.
Nhập ZombieAgent, con trai của ShadowLeak
Một trong những ví dụ mới nhất là một lỗ hổng được phát hiện gần đây trong ChatGPT.Nó cho phép các nhà nghiên cứu tại Radware lén lút lấy ra thông tin cá nhân của người dùng. Cuộc tấn công của họ cũng cho phép dữ liệu được gửi trực tiếp từ máy chủ ChatGPT, một khả năng giúp dữ liệu có thêm khả năng tàng hình vì không có dấu hiệu vi phạm nào trên máy người dùng, nhiều máy trong số đó nằm trong các doanh nghiệp được bảo vệ. Hơn nữa, việc khai thác đã đưa các mục vào bộ nhớ dài hạn mà trợ lý AI lưu trữ cho người dùng mục tiêu, giúp nó tồn tại lâu dài.
Kiểu tấn công này đã được chứng minh nhiều lần chống lại hầu như tất cả các mô hình ngôn ngữ lớn. Một ví dụ là ShadowLeak, một lỗ hổng lọc dữ liệu trong ChatGPT của Radware tiết lộ vào tháng 9 năm ngoái. Nó nhắm mục tiêu vào Deep Research, một tác nhân AI tích hợp Chat-GPT mà OpenAI đã giới thiệu hồi đầu năm.
Đáp lại, OpenAI đã đưa ra các biện pháp giảm thiểu nhằm ngăn chặn cuộc tấn công. Tuy nhiên, với nỗ lực khiêm tốn, Radware đã tìm ra một phương pháp bỏ qua giúp hồi sinh ShadowLeak một cách hiệu quả. Công ty bảo mật đã đặt tên cho cuộc tấn công sửa đổi là ZombieAgent.

