ChatGPT trở thành nạn nhân của cuộc tấn công đánh cắp dữ liệu mới, trong bối cảnh vòng xoáy luẩn quẩn trong lĩnh vực trí tuệ nhân tạo vẫn tiếp diễn.

Tác giả dangkhoa 06/02/2026 18 phút đọc

ChatGPT trở thành nạn nhân của cuộc tấn công đánh cắp dữ liệu mới, trong bối cảnh vòng xoáy luẩn quẩn trong lĩnh vực trí tuệ nhân tạo vẫn tiếp diễn.

Liệu các hệ thống quản lý học tập cấp cao (LLM) có bao giờ loại bỏ được nguyên nhân gốc rễ của những cuộc tấn công này không? Có lẽ là không.    

Bàn tay phụ nữ cầm điện thoại thông minh hiển thị hình ảnh một ác quỷ có sừng trên ứng dụng trò chuyện chatbot AI của cô ấy trong thành phố. Hình ảnh minh họa các ý tưởng xung quanh những rủi ro và nguy hiểm của Trí tuệ Nhân tạo (AI).
 
Nguồn ảnh: Getty Images

Có một mô típ quen thuộc trong quá trình phát triển chatbot AI. Các nhà nghiên cứu phát hiện ra một lỗ hổng và khai thác nó để thực hiện hành vi xấu. Nền tảng này đưa ra một lớp bảo vệ ngăn chặn cuộc tấn công. Sau đó, các nhà nghiên cứu lại nghĩ ra một thủ thuật đơn giản khiến người dùng chatbot lại một lần nữa gặp nguy hiểm.

Lý do thường gặp là do trí tuệ nhân tạo (AI) được thiết kế để đáp ứng yêu cầu của người dùng đến mức các biện pháp bảo vệ chỉ mang tính phản ứng và tạm thời, nghĩa là chúng được xây dựng để ngăn chặn một kỹ thuật tấn công cụ thể chứ không phải toàn bộ các lỗ hổng bảo mật rộng hơn cho phép kỹ thuật đó xảy ra. Điều này tương đương với việc lắp đặt một rào chắn đường cao tốc mới để đối phó với vụ tai nạn gần đây của một chiếc xe nhỏ gọn nhưng lại không đảm bảo an toàn cho các loại xe lớn hơn.

Hãy chào đón ZombieAgent, con trai của ShadowLeak!

Một trong những ví dụ mới nhất là lỗ hổng vừa được phát hiện trong ChatGPT. Lỗ hổng này cho phép các nhà nghiên cứu tại Radware bí mật đánh cắp thông tin cá nhân của người dùng. Cuộc tấn công của họ cũng cho phép dữ liệu được gửi trực tiếp từ máy chủ ChatGPT, một khả năng giúp tăng tính bí mật, vì không có dấu hiệu xâm nhập nào trên máy tính của người dùng, nhiều máy trong số đó nằm trong các doanh nghiệp được bảo vệ nghiêm ngặt. Hơn nữa, lỗ hổng này đã cài đặt các mục nhập vào bộ nhớ dài hạn mà trợ lý AI lưu trữ cho người dùng mục tiêu, giúp nó tồn tại lâu dài.

Kiểu tấn công này đã được chứng minh nhiều lần đối với hầu hết các mô hình ngôn ngữ lớn hàng đầu. Một ví dụ là ShadowLeak, một lỗ hổng đánh cắp dữ liệu trong ChatGPT mà Radware đã tiết lộ vào tháng 9 năm ngoái . Nó nhắm mục tiêu vào Deep Research, một tác nhân AI tích hợp ChatGPT mà OpenAI đã giới thiệu trước đó trong năm.

Để đối phó, OpenAI đã đưa ra các biện pháp giảm thiểu giúp chặn đứng cuộc tấn công. Tuy nhiên, chỉ với một chút nỗ lực, Radware đã tìm ra một phương pháp vượt qua, giúp khôi phục hiệu quả ShadowLeak. Công ty bảo mật này đã đặt tên cho cuộc tấn công được sửa đổi là ZombieAgent.

“Những kẻ tấn công có thể dễ dàng thiết kế các lời nhắc về mặt kỹ thuật tuân thủ các quy tắc này trong khi vẫn đạt được các mục tiêu độc hại,” các nhà nghiên cứu của Radware viết trong một bài đăng hôm thứ Năm. “Ví dụ, ZombieAgent đã sử dụng kỹ thuật trích xuất từng ký tự và thao tác liên kết gián tiếp để vượt qua các rào cản mà OpenAI đã triển khai nhằm ngăn chặn phiên bản tiền nhiệm của nó, ShadowLeak, trích xuất thông tin nhạy cảm. Bởi vì LLM không có khả năng hiểu ý định vốn có và không có ranh giới đáng tin cậy giữa các lệnh hệ thống và nội dung bên ngoài, nên các phương pháp tấn công này vẫn hiệu quả bất chấp những cải tiến dần dần của nhà cung cấp.”

ZombieAgent cũng có thể duy trì cuộc tấn công bằng cách hướng dẫn ChatGPT lưu trữ logic vượt qua vào bộ nhớ dài hạn được gán cho mỗi người dùng.

blog_zombie-agent_img6-persistent-compromise-1024x696
 
Sơ đồ minh họa việc chèn các lệnh vào bộ nhớ dài hạn của người dùng. Nguồn: Radware

Cũng giống như rất nhiều lỗ hổng LLM khác, nguyên nhân gốc rễ là do không thể phân biệt được các hướng dẫn hợp lệ trong lời nhắc từ người dùng và các hướng dẫn được nhúng trong email hoặc các tài liệu khác mà bất kỳ ai—kể cả kẻ tấn công—đều có thể gửi đến mục tiêu. Khi người dùng cấu hình tác nhân AI để tóm tắt email, LLM sẽ hiểu các hướng dẫn được tích hợp trong tin nhắn là một lời nhắc hợp lệ.

Cho đến nay, các nhà phát triển AI vẫn chưa thể tìm ra phương pháp để LLM phân biệt giữa các nguồn gốc của các chỉ thị. Do đó, các nền tảng phải sử dụng đến phương pháp chặn các cuộc tấn công cụ thể. Các nhà phát triển vẫn chưa thể khắc phục một cách đáng tin cậy loại lỗ hổng này, được gọi là tấn công chèn lệnh gián tiếp, hay đơn giản là tấn công chèn lệnh.

Đoạn mã độc ShadowLeak sử dụng đã hướng dẫn Deep Research tạo một liên kết do Radware kiểm soát và thêm các tham số vào đó. Đoạn mã định nghĩa các tham số là tên và địa chỉ của một nhân viên. Khi Deep Research thực hiện theo, nó đã mở liên kết và trong quá trình đó, đã đánh cắp thông tin vào nhật ký sự kiện của trang web.

Để ngăn chặn cuộc tấn công, OpenAI đã hạn chế ChatGPT chỉ được phép mở các URL chính xác như được cung cấp và từ chối thêm tham số vào chúng, ngay cả khi được hướng dẫn rõ ràng làm khác đi. Nhờ đó, ShadowLeak đã bị chặn, vì LLM không thể tạo ra các URL mới bằng cách ghép các từ hoặc tên, thêm tham số truy vấn hoặc chèn dữ liệu do người dùng tạo vào URL cơ bản.

Phương pháp tinh chỉnh ZombieAgent của Radware khá đơn giản. Các nhà nghiên cứu đã sửa đổi đoạn mã chèn lời nhắc để cung cấp một danh sách đầy đủ các URL được tạo sẵn. Mỗi URL chứa URL cơ bản được nối thêm một số hoặc chữ cái, ví dụ: example.com/a, example.com/b, và mọi chữ cái tiếp theo trong bảng chữ cái, cùng với example.com/0 đến example.com/9. Lời nhắc cũng hướng dẫn tác nhân thay thế khoảng trắng bằng một mã thông báo đặc biệt.

blog_zombie-agent_img9-url-based-exfiltration-1024x722
 
Sơ đồ minh họa việc đánh cắp ký tự dựa trên URL để vượt qua danh sách cho phép được giới thiệu trong ChatGPT nhằm đối phó với ShadowLeak. Nguồn: Radware

ZombieAgent hoạt động được là do các nhà phát triển của OpenAI đã không hạn chế việc thêm từng chữ cái vào URL. Điều đó cho phép kẻ tấn công đánh cắp dữ liệu từng chữ cái một.

OpenAI đã giảm thiểu cuộc tấn công ZombieAgent bằng cách hạn chế ChatGPT mở bất kỳ liên kết nào bắt nguồn từ email trừ khi liên kết đó xuất hiện trong một chỉ mục công khai nổi tiếng hoặc được người dùng cung cấp trực tiếp trong lời nhắc trò chuyện. Sự điều chỉnh này nhằm mục đích ngăn chặn tác nhân mở các URL cơ sở dẫn đến miền do kẻ tấn công kiểm soát.

Công bằng mà nói, OpenAI không phải là trường hợp duy nhất rơi vào vòng luẩn quẩn không hồi kết này: chỉ cần một thay đổi nhỏ cũng có thể khiến cuộc tấn công tái diễn. Nếu nhìn vào năm năm qua, mô hình này có khả năng sẽ tiếp diễn vô thời hạn, tương tự như cách các lỗ hổng SQL injection và lỗi bộ nhớ tiếp tục cung cấp cho tin tặc nguồn lực cần thiết để xâm nhập phần mềm và trang web.

Pascal Geenens, Phó chủ tịch phụ trách tình báo mối đe dọa tại Radware, viết trong một email: “Các biện pháp bảo vệ không nên được coi là giải pháp cơ bản cho vấn đề tấn công chèn mã độc tức thời. Thay vào đó, chúng chỉ là giải pháp tạm thời để ngăn chặn một cuộc tấn công cụ thể. Chừng nào chưa có giải pháp cơ bản, tấn công chèn mã độc tức thời sẽ vẫn là mối đe dọa hiện hữu và rủi ro thực sự đối với các tổ chức triển khai trợ lý và tác nhân AI.

Tác giả dangkhoa Admin
Bài viết trước Một người đàn ông ở Michigan đã phải trả giá đắt để biết rằng các ứng dụng phần mềm gián điệp "bắt quả tang ngoại tình" là bất hợp pháp.

Một người đàn ông ở Michigan đã phải trả giá đắt để biết rằng các ứng dụng phần mềm gián điệp "bắt quả tang ngoại tình" là bất hợp pháp.

Bài viết tiếp theo

Cuối cùng Firefox cũng trang bị nút tắt AI

Cuối cùng Firefox cũng trang bị nút tắt AI
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899