Trong lĩnh vực hack AI còn non trẻ, việc tiêm nhanh gián tiếp đã trở thành một khối xây dựng cơ bản để khiến chatbot lọc dữ liệu nhạy cảm hoặc thực hiện các hành động độc hại khác. Các nhà phát triển các nền tảng như Gemini của Google và ChatGPT của OpenAI nói chung rất giỏi trong việc bịt các lỗ hổng bảo mật này, nhưng tin tặc liên tục tìm ra những cách mới để chọc qua chúng nhiều lần.
Hôm thứ Hai, nhà nghiên cứu Johann Rehberger đã trình diễn một cách mới để ghi đè các biện pháp bảo vệ tiêm nhanh mà các nhà phát triển Google đã tích hợp vào Gemini—, cụ thể là các biện pháp bảo vệ hạn chế việc gọi Google Workspace hoặc các công cụ nhạy cảm khác khi xử lý dữ liệu không đáng tin cậy, chẳng hạn như email đến hoặc tài liệu được chia sẻ. Kết quả của cuộc tấn công của Rehberger là việc trồng vĩnh viễn các ký ức dài hạn sẽ có mặt trong tất cả các phiên trong tương lai, mở ra khả năng chatbot hành động dựa trên thông tin sai lệch hoặc hướng dẫn vĩnh viễn.
Sự cả tin không thể chữa khỏi
Thêm về cuộc tấn công sau này. Hiện tại, đây là đánh giá ngắn gọn về việc tiêm nhắc gián tiếp: Lời nhắc trong ngữ cảnh của mô hình ngôn ngữ lớn (LLM) là hướng dẫn, được cung cấp bởi nhà phát triển chatbot hoặc bởi người sử dụng chatbot, để thực hiện các tác vụ, chẳng hạn như tóm tắt email hoặc soạn thảo một câu trả lời. Nhưng nếu nội dung này chứa một hướng dẫn độc hại thì sao? Nó chỉ ra rằng chatbot rất háo hức làm theo hướng dẫn mà họ thường nhận đơn đặt hàng của họ từ nội dung như vậy, mặc dù không bao giờ có ý định cho nó hoạt động như một lời nhắc.
Xu hướng vốn có của AI để xem lời nhắc ở khắp mọi nơi đã trở thành cơ sở của việc tiêm lời nhắc gián tiếp, có lẽ là khối xây dựng cơ bản nhất trong canon hack chatbot trẻ tuổi. Các nhà phát triển bot đã chơi trò đánh chuột chũi kể từ đó.
Tháng 8 năm ngoái, Rehberger đã chứng minh cách một email độc hại hoặc tài liệu được chia sẻ có thể khiến Microsoft Copilot tìm kiếm hộp thư đến của mục tiêu cho các email nhạy cảm và gửi bí mật của nó gửi kẻ tấn công.
Với một số phương tiện hiệu quả để hạn chế tính cả tin cơ bản của chatbot, các nhà phát triển chủ yếu sử dụng các biện pháp giảm thiểu. Microsoft chưa bao giờ cho biết làm thế nào để giảm thiểu lỗ hổng Copilot và đã không trả lời các câu hỏi yêu cầu những chi tiết này. Trong khi cuộc tấn công cụ thể mà Rehberger nghĩ ra không còn hiệu quả nữa thì việc tiêm nhanh gián tiếp vẫn hiệu quả.