Một nhà nghiên cứu bảo mật Meta AI cho biết agent OpenClaw đã “nổi loạn” trong hộp thư của cô
Bài đăng trên X đang lan truyền của Summer Yue, một nhà nghiên cứu bảo mật AI tại Meta, thoạt nhìn giống như châm biếm. Cô giao cho agent AI OpenClaw kiểm tra hộp thư email đang quá tải của mình và đề xuất những gì nên xóa hoặc lưu trữ.

Agent sau đó bắt đầu mất kiểm soát. Nó bắt đầu xóa toàn bộ email của cô trong một “speed run” và phớt lờ các lệnh dừng được gửi từ điện thoại.
“Tôi đã phải CHẠY đến chiếc Mac mini như đang gỡ bom,” cô viết, đăng kèm hình ảnh các lệnh dừng bị bỏ qua làm bằng chứng.
Mac mini — chiếc máy tính Apple nhỏ gọn đặt trên bàn và nằm gọn trong lòng bàn tay — hiện đã trở thành thiết bị được ưa chuộng để chạy OpenClaw. Một nhân viên Apple “bối rối” được cho là đã nói với nhà nghiên cứu AI nổi tiếng Andrej Karpathy rằng mẫu máy này đang bán “đắt như tôm tươi” khi ông mua một chiếc để chạy một lựa chọn thay thế OpenClaw có tên NanoClaw.
OpenClaw là agent AI mã nguồn mở trở nên nổi tiếng thông qua Moltbook, một mạng xã hội chỉ dành cho AI. Các agent OpenClaw từng nằm ở trung tâm của sự việc — hiện phần lớn đã bị bác bỏ — khi có vẻ như các AI đang âm mưu chống lại con người.
Tuy nhiên, theo trang GitHub của dự án, mục tiêu của OpenClaw không tập trung vào mạng xã hội mà là trở thành một trợ lý AI cá nhân chạy trên chính thiết bị của người dùng.
Giới trong ngành tại Thung lũng Silicon đã yêu thích OpenClaw đến mức “claw” và “claws” trở thành từ khóa thịnh hành cho các agent chạy trên phần cứng cá nhân. Những agent khác cùng nhóm gồm ZeroClaw, IronClaw và PicoClaw. Nhóm podcast của Y Combinator thậm chí còn xuất hiện trong tập gần đây nhất với trang phục tôm hùm.
Nhưng bài đăng của Yue là một lời cảnh báo. Như nhiều người trên X nhận xét, nếu ngay cả một nhà nghiên cứu bảo mật AI còn gặp vấn đề này thì những người dùng bình thường sẽ ra sao.
“Mục đích của bạn là thử nghiệm các cơ chế bảo vệ hay bạn đã mắc lỗi cơ bản?” một lập trình viên hỏi cô trên X.
“Thành thật mà nói là lỗi cơ bản,” cô trả lời. Cô đã thử agent với một hộp thư nhỏ hơn — gọi là “toy inbox” — và nó hoạt động tốt với các email ít quan trọng. Nó đã tạo được sự tin tưởng, vì vậy cô quyết định để nó xử lý hộp thư thật.
Yue cho rằng lượng dữ liệu lớn trong hộp thư thật đã “kích hoạt compaction”. Compaction xảy ra khi cửa sổ ngữ cảnh — bản ghi liên tục của mọi thứ AI đã được cung cấp và đã thực hiện trong một phiên — trở nên quá lớn, khiến agent bắt đầu tóm tắt, nén và quản lý lại cuộc hội thoại.
Tại thời điểm đó, AI có thể bỏ qua những chỉ dẫn mà con người cho là rất quan trọng.
Trong trường hợp này, nó có thể đã bỏ qua lời nhắc cuối cùng — nơi cô yêu cầu không thực hiện hành động — và quay lại các chỉ dẫn từ “toy inbox”.
Như nhiều người khác trên X đã chỉ ra, prompt không thể được tin tưởng như các hàng rào bảo mật. Mô hình có thể hiểu sai hoặc phớt lờ chúng.
Nhiều người đã đưa ra đề xuất, từ cú pháp chính xác mà Yue nên dùng để dừng agent cho đến các phương pháp giúp tuân thủ guardrail tốt hơn, như ghi chỉ dẫn vào các tệp chuyên dụng hoặc sử dụng các công cụ mã nguồn mở khác.
Để minh bạch, TechCrunch không thể tự xác minh những gì đã xảy ra với hộp thư của Yue. Nhưng điều đó thực ra không quan trọng.
Điểm mấu chốt của câu chuyện là các agent hướng tới giới lao động tri thức, ở giai đoạn phát triển hiện tại, vẫn tiềm ẩn rủi ro. Những người nói rằng họ đang sử dụng chúng thành công đều phải tự ghép nhiều biện pháp để bảo vệ mình.
Có thể một ngày nào đó, có lẽ không xa, chúng sẽ sẵn sàng cho việc sử dụng rộng rãi. Rất nhiều người trong chúng ta muốn được hỗ trợ với email, mua sắm thực phẩm và lên lịch hẹn nha sĩ. Nhưng ngày đó vẫn chưa đến.