Vì sao các AI agent doanh nghiệp có thể trở thành mối đe dọa nội bộ tối thượng

Tác giả ptkhanhduy 04/03/2026 12 phút đọc

AI tạo sinh đang chuyển mình từ chatbot sang thực thể tự vận hành. Khi các agent có thể tự tạo agent khác, chi tiền và chỉnh sửa hệ thống, ranh giới giữa công cụ năng suất và mối đe dọa nội bộ gần như biến mất.

Những điểm chính

Sự bùng nổ của agent có thể lặp lại thời kỳ “nổ tung” máy ảo trước đây.
Trao quá nhiều quyền cho agent sẽ làm tăng phạm vi thiệt hại khi xảy ra sự cố.
Cần đối xử với AI agent như nhân viên có danh tính và quyền truy cập riêng.

Từ tháng 10 năm ngoái, tôi khá hào hứng khi “vibe coding” một loạt ứng dụng bằng Claude Code. Thỉnh thoảng tôi đưa ra một chỉ dẫn, và AI sẽ tự đi làm việc theo yêu cầu. Đó là một sự cộng tác khá thoải mái. Tôi có thể thấy mọi thứ AI đang làm và tạo ra mã mới với tốc độ nhanh hơn bao giờ hết.

Nhưng rồi Anthropic cập nhật mô hình ngôn ngữ của họ. Tính năng quan trọng là Claude có thể khởi tạo các agent cấp dưới làm việc song song trên các phần khác nhau của vấn đề và trao đổi với nhau. Về lý thuyết, đây là một bước tiến kỹ thuật lớn.

Về lý thuyết.

Toàn bộ trải nghiệm của tôi thay đổi. Đột nhiên, Claude khởi chạy bốn, năm, sáu, bảy, thậm chí tám agent cùng lúc. Tôi không thể nhìn thấy chúng đang làm gì. Tôi cũng không có cách nào dừng chúng nếu một hoặc nhiều agent bắt đầu “mất kiểm soát”. Và đúng là chúng đã mất kiểm soát.

Một agent bị kẹt khi cố truy cập tệp mà nó không có quyền root. Một agent khác tự ý tái cấu trúc toàn bộ ứng dụng (việc tôi không yêu cầu). Nó thất bại giữa chừng, để lại các quy ước đặt tên không nhất quán và các khai báo đối tượng xung đột khắp mã nguồn. Một cách hiệu quả và đầy nhiệt tình, nó đã phá hủy hoàn toàn ứng dụng của tôi.

May mắn thay, tôi có hệ thống quản lý phiên bản và bản sao lưu, nên có thể khôi phục. Tôi cũng đặt ra quy tắc cấm Claude khởi chạy các agent song song. Nguy cơ thiệt hại đơn giản là quá lớn.

Đó là câu chuyện của tôi — một lập trình viên cá nhân làm dự án phụ không quá quan trọng. Và các agent “nổi loạn” đã xóa sổ dự án của tôi.

Bây giờ hãy mở rộng quy mô lên cấp doanh nghiệp. Thay vì bảy hay tám agent phá mã nguồn dự án phụ, hãy tưởng tượng các agent đó chạy khắp hệ thống CNTT của bạn, nhiều agent có quyền truy cập để chi tiền, truy vấn cơ sở dữ liệu, chỉnh sửa tệp, khởi tạo và phản hồi liên lạc thay mặt công ty.

Điều gì có thể xảy ra?

Hãy điểm qua một số ví dụ thực tế nơi AI đã gây ra sự cố.

Từ năm 2022, một chatbot AI của Air Canada đã hứa giảm giá cho khách hàng mà thực tế không tồn tại. Khách hàng kiện và thắng kiện. Công ty cho rằng lỗi do AI, nhưng tòa án kết luận AI đại diện cho công ty.

Năm 2025, một bot tuyển dụng AI làm lộ thông tin cá nhân của hàng triệu người ứng tuyển vào McDonald's. Công ty AI vận hành bot sử dụng mật khẩu “123456”.

Cũng trong năm 2025, các nhà nghiên cứu bảo mật chứng minh rằng tấn công prompt injection có thể khiến nền tảng CRM của Salesforce bị lộ dữ liệu.

Một lỗ hổng khác trên nền tảng ServiceNow AI cho phép người dùng chưa xác thực mạo danh người dùng khác và thực hiện mọi thao tác tương ứng.

Amazon Q từng gặp lỗi token GitHub cho phép tác nhân đe dọa đẩy mã độc vào kho mã nguồn mở của tiện ích mở rộng, có thể được tải về môi trường phát triển của người dùng.

OpenAI cũng phát hiện lỗ hổng trong Codex CLI cho phép thực thi lệnh độc hại trên máy lập trình viên thông qua tệp cấu hình bị nhúng mã nguy hiểm.

Một ví dụ “thực tế” được công ty an ninh Stellar Cyber trích dẫn: một agent mua sắm của công ty sản xuất bị thao túng trong ba tuần, khiến nó tin rằng có thể phê duyệt mọi đơn dưới 500.000 USD mà không cần con người xem xét. Kẻ tấn công sau đó đặt 5 triệu USD đơn hàng giả qua 10 giao dịch.

82 so với 1

CyberArk báo cáo rằng trong doanh nghiệp, danh tính máy nhiều hơn danh tính con người với tỷ lệ 82:1.

72% nhân viên thường xuyên sử dụng AI trong công việc, nhưng 68% tổ chức chưa có kiểm soát danh tính cho các công nghệ này.

Gartner dự báo ứng dụng AI agent trong doanh nghiệp sẽ tăng 800% từ 2025 sang 2026.

Chỉ 6% tổ chức có chiến lược bảo mật AI nâng cao.

Khảo sát của EY cho thấy 99% công ty gặp tổn thất tài chính liên quan đến rủi ro AI; 64% mất trên 1 triệu USD; trung bình 4,4 triệu USD mỗi công ty.

Kết luận: Chúng ta chưa sẵn sàng.

Khi agent “tốt” trở thành “xấu”

OWASP liệt kê các rủi ro chính với hệ thống AI agent:

Prompt injection
Xử lý đầu ra không an toàn
Đầu độc dữ liệu huấn luyện
Tấn công từ chối dịch vụ
Lỗ hổng chuỗi cung ứng
Rò rỉ thông tin nhạy cảm
Plugin không an toàn
Trao quyền quá mức
Phụ thuộc quá mức
Đánh cắp mô hình

Mối đe dọa nội bộ

Trước đây, phần lớn sự cố nội bộ đến từ sơ suất của nhân viên.

Năm 2018: 64% do sơ suất, 23% cố ý, 13% do đánh cắp thông tin xác thực.
Năm 2022: 56% sơ suất, 26% cố ý, 18% đánh cắp thông tin xác thực.

Đến 2026, nguy cơ chuyển từ con người sang agent trở thành tác nhân nội bộ độc hại.

AI agent được cấp quyền truy cập lớn trong mạng nội bộ để làm việc. Chúng trở thành mục tiêu tấn công hấp dẫn.

Với tỷ lệ 82 danh tính máy cho mỗi danh tính người, mức độ sơ suất có thể bị nhân lên cực lớn.

Phương pháp bảo vệ

OWASP đề xuất:

Coi agent như danh tính riêng biệt.
Nguyên tắc đặc quyền tối thiểu.
Token ngắn hạn, giới hạn phạm vi.
Xác thực bổ sung cho hành động nhạy cảm.
Tách giao diện hội thoại khỏi ranh giới bảo mật.
Xác thực giao tiếp giữa agent.
Hạn chế truy cập công cụ bằng chính sách.
Có khả năng thu hồi và giám sát tập trung.
Phân tách bộ nhớ và ngữ cảnh.
Thiết kế kiến trúc giới hạn phạm vi thiệt hại.

Tất cả đều hợp lý. Nhưng còn một điều nữa: giảm số lượng agent.

Hãy nhớ thời kỳ bùng nổ máy ảo. Chúng ta tạo quá nhiều VM đến mức không thể kiểm soát.

Agent có thể hỗn loạn tương tự. Hãy cân nhắc kỹ trước khi tạo agent mới. Nếu tuyển một nhân viên cần nhiều vòng phỏng vấn, thì “tuyển” một agent cũng nên cẩn trọng tương tự.

Vấn đề là agent thích tạo thêm agent.

Đây sẽ là cuộc chiến lớn trong vài năm tới. Không chỉ là tác nhân độc hại. Mà còn là những rủi ro vô tình, phát sinh từ nỗ lực làm việc dễ hơn bằng cách giao bớt cho máy móc.