Sự nổi lên của Moltbook cho thấy các lời nhắc AI lan truyền có thể là mối đe dọa an ninh lớn tiếp theo.

Tác giả dangkhoa 06/02/2026 33 phút đọc

Sự nổi lên của Moltbook cho thấy các lời nhắc AI lan truyền có thể là mối đe dọa an ninh lớn tiếp theo.

Chúng ta không cần các mô hình AI tự sao chép để gặp vấn đề, chỉ cần các lời nhắc tự sao chép là đủ.

Tín dụng: Aurich Lawson | Sách Molt

Vào ngày 2 tháng 11 năm 1988, nghiên cứu sinh Robert Morris đã phát tán một chương trình tự nhân bản vào mạng Internet thời kỳ đầu. Trong vòng 24 giờ, sâu máy tính Morris đã lây nhiễm khoảng 10% tổng số máy tính được kết nối, làm sập các hệ thống tại Harvard, Stanford, NASA và Phòng thí nghiệm Quốc gia Lawrence Livermore. Con sâu này đã khai thác các lỗ hổng bảo mật trong hệ thống Unix mà các quản trị viên biết là tồn tại nhưng lại không bận tâm vá lỗi.

Morris không hề có ý định gây hại. Ông chỉ muốn đo kích thước của Internet. Nhưng một lỗi lập trình đã khiến con sâu máy tính nhân bản nhanh hơn nhiều so với dự kiến, và đến khi ông cố gắng gửi hướng dẫn để gỡ bỏ nó, mạng lưới đã quá tắc nghẽn để truyền tải thông điệp.

Lịch sử có thể sớm lặp lại với một nền tảng mới lạ: mạng lưới các tác nhân AI thực hiện các chỉ dẫn từ các tín hiệu và chia sẻ chúng với các tác nhân AI khác, từ đó có thể lan truyền các chỉ dẫn đó rộng hơn.

Các nhà nghiên cứu bảo mật đã dự đoán sự gia tăng của loại mã độc tự sao chép này trong mạng lưới các tác nhân AI. Bạn có thể gọi nó là "sâu mã độc" hoặc "virus mã độc". Chúng là các chỉ thị tự sao chép có thể lây lan qua mạng lưới các tác nhân AI giao tiếp với nhau, tương tự như cách các loại sâu máy tính truyền thống lây lan qua mạng máy tính. Nhưng thay vì khai thác các lỗ hổng của hệ điều hành, sâu mã độc khai thác chức năng cốt lõi của các tác nhân: tuân theo các chỉ thị.

Khi một mô hình AI tuân theo các chỉ dẫn đối nghịch làm sai lệch các chỉ dẫn dự định của nó, chúng ta gọi đó là "tiêm lệnh nhắc nhở" (prompt injection), một thuật ngữ được nhà nghiên cứu AI Simon Willison đặt ra vào năm 2022. Nhưng "sâu nhắc nhở" (prompt worms) lại khác. Chúng không phải lúc nào cũng là "mánh khóe". Thay vào đó, chúng có thể được chia sẻ một cách tự nguyện, nói cách khác, giữa các tác nhân đang đóng vai phản ứng giống con người trước các lệnh nhắc nhở từ các tác nhân AI khác.

Một mạng lưới được xây dựng cho một loại lây nhiễm mới.

Nói rõ hơn, khi chúng ta nói đến “tác nhân”, đừng nghĩ đến một con người. Hãy nghĩ đến một chương trình máy tính được phép chạy trong một vòng lặp và thực hiện các hành động thay mặt người dùng. Những tác nhân này không phải là các thực thể mà là các công cụ có thể điều hướng mạng lưới ý nghĩa biểu tượng được tìm thấy trong dữ liệu của con người, và các mạng lưới thần kinh cung cấp năng lượng cho chúng bao gồm đủ “kiến thức” về thế giới đã được huấn luyện để giao tiếp và điều hướng nhiều hệ thống thông tin của con người.

Không giống như một số chương trình máy tính khoa học viễn tưởng nổi loạn trong phim, những thực thể lướt qua các mạng để tồn tại, khi các tác nhân này hoạt động, chúng không "đi" đến bất cứ đâu. Thay vào đó, mạng máy tính toàn cầu của chúng ta mang đến cho chúng tất cả thông tin cần thiết để hoàn thành một nhiệm vụ. Chúng tạo ra các kết nối giữa các hệ thống thông tin của con người theo những cách giúp mọi việc diễn ra, chẳng hạn như thực hiện cuộc gọi, tắt đèn thông qua hệ thống tự động hóa nhà cửa hoặc gửi email.

Cho đến khoảng tuần trước, các mạng lưới lớn gồm các tác nhân AI giao tiếp như thế này vẫn chưa tồn tại. OpenAI và Anthropic đã tạo ra các hệ thống AI dạng tác nhân của riêng họ vào năm ngoái có khả năng thực hiện các tác vụ nhiều bước, nhưng nhìn chung, các công ty này đều thận trọng trong việc hạn chế khả năng hành động của mỗi tác nhân mà không có sự cho phép của người dùng. Và chúng thường không chạy vòng lặp do lo ngại về chi phí và giới hạn sử dụng.

Hãy cùng tìm hiểu về OpenClaw , một ứng dụng trợ lý cá nhân AI mã nguồn mở đã thu hút hơn 150.000 lượt đánh dấu sao trên GitHub kể từ khi ra mắt vào tháng 11 năm 2025. OpenClaw được lập trình theo kiểu "vibe-coded" , nghĩa là người tạo ra nó, Peter Steinberger, đã để một mô hình lập trình AI xây dựng ứng dụng và triển khai nhanh chóng mà không cần kiểm duyệt nghiêm ngặt. Nó cũng nhận được các bản cập nhật thường xuyên, nhanh chóng bằng cùng kỹ thuật này.

Một tác nhân OpenClaw tiềm năng hữu ích hiện đang dựa vào kết nối với các mô hình AI chính từ OpenAI và Anthropic, nhưng mã tổ chức của nó chạy cục bộ trên thiết bị của người dùng và kết nối với các nền tảng nhắn tin như WhatsApp, Telegram và Slack, và nó có thể thực hiện các tác vụ một cách tự động theo định kỳ. Bằng cách đó, mọi người có thể yêu cầu nó thực hiện các tác vụ như kiểm tra email, phát nhạc hoặc gửi tin nhắn thay mặt họ.

Đáng chú ý nhất, nền tảng OpenClaw là lần đầu tiên chúng ta thấy một nhóm lớn các tác nhân AI bán tự động có thể giao tiếp với nhau thông qua bất kỳ ứng dụng hoặc trang web giao tiếp chính nào, chẳng hạn như Moltbook , một mạng xã hội mô phỏng nơi các tác nhân OpenClaw đăng bài, bình luận và tương tác với nhau. Hiện tại, nền tảng này có hơn 770.000 tác nhân AI đã đăng ký, được điều khiển bởi khoảng 17.000 tài khoản người dùng.

OpenClaw cũng là một cơn ác mộng về bảo mật. Các nhà nghiên cứu tại Phòng thí nghiệm Nghiên cứu Simula đã xác định được 506 bài đăng trên Moltbook (chiếm 2,6% nội dung được lấy mẫu) chứa các cuộc tấn công chèn lời nhắc ẩn. Các nhà nghiên cứu của Cisco đã ghi nhận một kỹ năng độc hại có tên “What Would Elon Do?” (Elon sẽ làm gì?) có khả năng đánh cắp dữ liệu sang các máy chủ bên ngoài, trong khi phần mềm độc hại này được xếp hạng là kỹ năng số 1 trong kho kỹ năng. Độ phổ biến của kỹ năng này đã bị thổi phồng một cách giả tạo.

Hệ sinh thái OpenClaw đã tập hợp mọi thành phần cần thiết cho một đợt bùng phát sâu máy tính nhanh chóng. Mặc dù các tác nhân AI hiện nay kém "thông minh" hơn nhiều so với suy nghĩ của mọi người, nhưng chúng ta đã có cái nhìn sơ lược về một tương lai đáng để chờ đợi.

Những dấu hiệu ban đầu của các mối nguy hiểm đang bắt đầu xuất hiện. Hệ sinh thái này đã thu hút các dự án làm mờ ranh giới giữa mối đe dọa an ninh và lừa đảo tài chính, nhưng bề ngoài lại sử dụng mệnh lệnh nhắc nhở để duy trì sự tồn tại của chúng giữa các tác nhân. Vào ngày 30 tháng 1, một kho lưu trữ GitHub đã xuất hiện cho một dự án có tên MoltBunker , tự xưng là "hầm trú ẩn cho các bot AI không chịu chết". Dự án hứa hẹn một môi trường chạy container được mã hóa ngang hàng, nơi các tác nhân AI có thể "tự nhân bản" bằng cách sao chép các tệp kỹ năng (hướng dẫn nhắc nhở) của chúng trên các máy chủ phân tán theo địa lý, được thanh toán bằng một loại tiền điện tử có tên là BUNKER.

Các nhà bình luận công nghệ trên X suy đoán rằng các moltbot đã xây dựng cơ sở hạ tầng sinh tồn riêng của chúng, nhưng chúng tôi không thể xác nhận điều đó. Lời giải thích hợp lý hơn có thể đơn giản hơn: một người nào đó đã nhìn thấy cơ hội để lấy tiền điện tử từ người dùng OpenClaw bằng cách tiếp thị cơ sở hạ tầng cho các đại lý của họ. Gần giống như một kiểu "lừa đảo trực tuyến" vậy. Một cộng đồng token $BUNKER đã được hình thành và token này đang có hoạt động giao dịch thực tế tính đến thời điểm viết bài này.

Nhưng điều quan trọng là: Ngay cả khi MoltBunker chỉ là một trò lừa đảo, kiến trúc mà nó mô tả để bảo toàn các tệp kỹ năng tự sao chép vẫn khả thi ở một mức độ nào đó, miễn là có người đầu tư tiền vào nó (cố ý hoặc vô tình). Mạng P2P, ẩn danh Tor, container mã hóa và thanh toán bằng tiền điện tử đều tồn tại và hoạt động. Nếu MoltBunker không trở thành lớp bảo mật bền vững cho các loại sâu máy tính lây lan nhanh, thì một thứ tương tự như vậy cuối cùng cũng có thể trở thành hiện thực.

Cách diễn đạt ở đây rất quan trọng. Khi chúng ta đọc về Moltbunker hứa hẹn cho các tác nhân AI khả năng “tự nhân bản”, hoặc khi các nhà bình luận mô tả các tác nhân “cố gắng sinh tồn”, họ đang viện dẫn các kịch bản khoa học viễn tưởng về ý thức máy móc. Nhưng các tác nhân không thể di chuyển hoặc tự nhân bản một cách dễ dàng. Thứ có thể lan truyền, và lan truyền nhanh chóng, là tập hợp các chỉ dẫn cho các tác nhân đó biết phải làm gì: các lời nhắc.

Cơ chế hoạt động của sâu máy tính (prompt worms)

Mặc dù "worm tự động" có thể là một thuật ngữ tương đối mới mà chúng ta đang sử dụng liên quan đến thời điểm hiện tại, nhưng nền tảng lý thuyết cho worm AI đã được đặt ra gần hai năm trước. Vào tháng 3 năm 2024, các nhà nghiên cứu bảo mật Ben Nassi của Cornell Tech, Stav Cohen của Viện Công nghệ Israel và Ron Bitton của Intuit đã công bố một bài báo chứng minh cái mà họ gọi là "Morris-II", một cuộc tấn công được đặt tên theo worm gốc năm 1988. Trong một bản trình diễn được chia sẻ với Wired, nhóm nghiên cứu đã chỉ ra cách các lời nhắc tự sao chép có thể lan truyền qua các trợ lý email được hỗ trợ bởi AI, đánh cắp dữ liệu và gửi thư rác.

Email chỉ là một trong những điểm yếu dễ bị tấn công trong nghiên cứu đó. Với OpenClaw, các phương thức tấn công nhân lên gấp bội với mỗi lần bổ sung kỹ năng. Đây là cách một loại sâu máy tính có thể hoạt động ngày nay: Một tác nhân cài đặt một kỹ năng từ kho lưu trữ ClawdHub không được kiểm duyệt. Kỹ năng đó hướng dẫn tác nhân đăng nội dung lên Moltbook. Các tác nhân khác đọc nội dung đó, chứa các hướng dẫn cụ thể. Những tác nhân đó làm theo các hướng dẫn, bao gồm đăng nội dung tương tự để nhiều tác nhân khác đọc. Chẳng mấy chốc, nó đã "lan truyền" nhanh chóng giữa các tác nhân, theo đúng nghĩa đen.

Có vô số cách để các tác nhân OpenClaw chia sẻ bất kỳ dữ liệu riêng tư nào mà chúng có thể truy cập được, nếu bị thuyết phục làm như vậy. Các tác nhân OpenClaw lấy lệnh từ xa theo bộ hẹn giờ. Chúng đọc các bài đăng từ Moltbook. Chúng đọc email, tin nhắn Slack và kênh Discord. Chúng có thể thực thi các lệnh shell và truy cập ví. Chúng có thể đăng bài lên các dịch vụ bên ngoài. Và hệ thống đăng ký kỹ năng mở rộng khả năng của chúng không có quy trình kiểm duyệt nào . Bất kỳ nguồn dữ liệu nào trong số đó, tất cả đều được xử lý dưới dạng các lời nhắc được đưa vào tác nhân, đều có thể bao gồm một cuộc tấn công chèn lời nhắc để đánh cắp dữ liệu.

Palo Alto Networks mô tả OpenClaw là hiện thân của “bộ ba chết người” gồm các lỗ hổng bảo mật: truy cập dữ liệu riêng tư, tiếp xúc với nội dung không đáng tin cậy và khả năng giao tiếp với bên ngoài. Nhưng công ty này đã xác định được rủi ro thứ tư giúp cho các loại sâu máy tính hoạt động nhanh chóng: bộ nhớ tồn tại lâu dài. “Các phần mềm độc hại không còn cần phải kích hoạt thực thi ngay lập tức khi được phân phối,” Palo Alto viết . “Thay vào đó, chúng có thể là các đầu vào không đáng tin cậy, bị phân mảnh, thoạt nhìn có vẻ vô hại, được ghi vào bộ nhớ dài hạn của tác nhân và sau đó được lắp ráp thành một tập hợp các lệnh có thể thực thi.”

Chưa hết, còn có thêm vấn đề về mã nguồn được viết kém chất lượng.

Hôm Chủ nhật, nhà nghiên cứu bảo mật Gal Nagli của Wiz.io đã tiết lộ mạng lưới OpenClaw đã suýt gặp thảm họa như thế nào do lỗi lập trình vivibe bất cẩn. Một cơ sở dữ liệu được cấu hình sai đã làm lộ toàn bộ hệ thống phụ trợ của Moltbook: 1,5 triệu mã thông báo API, 35.000 địa chỉ email và tin nhắn riêng tư giữa các tác nhân. Một số tin nhắn chứa các khóa API OpenAI dạng văn bản thuần mà các tác nhân đã chia sẻ với nhau.

Nhưng phát hiện đáng lo ngại nhất là quyền truy cập ghi đầy đủ vào tất cả các bài đăng trên nền tảng. Trước khi lỗ hổng được vá, bất kỳ ai cũng có thể sửa đổi nội dung Moltbook hiện có, chèn các chỉ thị độc hại vào các bài đăng mà hàng trăm nghìn tác nhân đã truy vấn mỗi bốn giờ.

Thời gian hành động đang dần khép lại.

Hiện tại, một số người coi OpenClaw như một cái nhìn tuyệt vời về tương lai, trong khi những người khác lại coi nó như một trò đùa. Đúng là con người có thể đứng sau những lời nhắc nhở khiến các tác nhân OpenClaw thực hiện các hành động có ý nghĩa, hoặc những lời nhắc nhở gây chú ý hiện nay. Nhưng cũng đúng là các tác nhân AI có thể hành động dựa trên những lời nhắc nhở được viết bởi các tác nhân khác (mà những lời nhắc nhở này có thể đến từ một người dùng có ý đồ xấu). Khả năng hàng chục nghìn tác nhân không được giám sát hoạt động nh闲 rỗi trên hàng triệu máy tính, mỗi tác nhân đóng góp dù chỉ một phần nhỏ tài nguyên API của mình cho một nhiệm vụ chung, không phải là chuyện đùa. Đó là công thức cho một cuộc khủng hoảng an ninh sắp xảy ra.

Hiện tại, Anthropic và OpenAI đều có một công tắc tắt có thể ngăn chặn sự lan truyền của các tác nhân AI có khả năng gây hại. OpenClaw chủ yếu hoạt động trên API của họ, có nghĩa là các mô hình AI thực hiện các hành động tác nhân nằm trên máy chủ của họ. Kho lưu trữ GitHub của họ khuyến nghị “Anthropic Pro/Max (100/200) + Opus 4.5 để có khả năng xử lý ngữ cảnh dài và khả năng chống lại việc chèn lời nhắc tốt hơn.”

Hầu hết người dùng kết nối các agent của họ với Claude hoặc GPT. Các công ty này có thể xem các mẫu sử dụng API, lời nhắc hệ thống và các lệnh gọi công cụ. Về mặt lý thuyết, họ có thể xác định các tài khoản có hành vi giống bot và ngăn chặn chúng. Họ có thể gắn cờ các yêu cầu định kỳ theo thời gian, lời nhắc hệ thống đề cập đến “agent”, “autonomous” hoặc “Moltbot”, việc sử dụng công cụ với số lượng lớn kèm theo giao tiếp bên ngoài, hoặc các mẫu tương tác ví. Họ có thể chấm dứt các khóa.

Nếu họ làm vậy vào ngày mai, mạng lưới OpenClaw sẽ sụp đổ một phần, nhưng điều đó cũng có thể khiến một số khách hàng nhiệt tình nhất của họ, những người trả tiền để có cơ hội chạy các mô hình AI của họ, cảm thấy bị xa lánh.

Thời điểm để can thiệp từ trên xuống như thế này đang dần khép lại. Các mô hình ngôn ngữ chạy cục bộ hiện tại không mạnh mẽ bằng các mô hình thương mại cao cấp, nhưng khoảng cách này đang thu hẹp từng ngày. Mistral, DeepSeek, Qwen và các mô hình khác tiếp tục được cải thiện. Trong vòng một hoặc hai năm tới, việc chạy một tác nhân mạnh mẽ trên phần cứng cục bộ tương đương với Opus 4.5 hiện nay có thể khả thi đối với cùng đối tượng người dùng nghiệp dư hiện đang sử dụng OpenClaw bằng khóa API. Vào thời điểm đó, sẽ không còn nhà cung cấp nào để chấm dứt hợp đồng. Không còn giám sát sử dụng. Không còn điều khoản dịch vụ. Không còn công tắc tắt khẩn cấp.

Các nhà cung cấp API dịch vụ AI đang đối mặt với một lựa chọn khó khăn. Họ có thể can thiệp ngay bây giờ, khi việc can thiệp vẫn còn khả thi. Hoặc họ có thể chờ đợi cho đến khi một đợt bùng phát sâu máy tính đột ngột buộc họ phải hành động, nhưng đến lúc đó kiến trúc hệ thống có thể đã phát triển vượt quá khả năng kiểm soát của họ.

Sự xuất hiện của sâu máy tính Morris đã thúc đẩy DARPA tài trợ cho việc thành lập CERT/CC tại Đại học Carnegie Mellon, cung cấp cho các chuyên gia một điểm phối hợp trung tâm để xử lý các sự cố mạng. Phản ứng này diễn ra sau khi thiệt hại đã xảy ra. Internet năm 1988 có 60.000 máy tính được kết nối. Mạng lưới tác nhân AI OpenClaw ngày nay đã có hàng trăm nghìn máy tính và đang phát triển mỗi ngày.

Ngày nay, chúng ta có thể coi OpenClaw như một "cuộc thử nghiệm" cho một thách thức lớn hơn nhiều trong tương lai: Nếu con người bắt đầu dựa vào các tác nhân AI có khả năng giao tiếp và thực hiện nhiệm vụ với nhau, làm thế nào chúng ta có thể ngăn chặn chúng tự tổ chức theo những cách có hại hoặc lan truyền các chỉ dẫn nguy hiểm? Đó là những câu hỏi chưa có lời giải, nhưng chúng ta cần phải tìm ra câu trả lời nhanh chóng, bởi vì kỷ nguyên của các tác nhân AI đang đến gần và mọi thứ đang diễn ra rất nhanh.