Mã do AI tạo ra có thể là thảm họa đối với chuỗi cung ứng phần mềm. Sau đây là lý do.

Tác giả tanthanh 10/02/2026 13 phút đọc

Mã máy tính do AI tạo ra đầy rẫy các tham chiếu đến các thư viện bên thứ ba không tồn tại, tạo cơ hội vàng cho các cuộc tấn công chuỗi cung ứng đầu độc các chương trình hợp pháp bằng các gói độc hại có thể đánh cắp dữ liệu, trồng cửa hậu và thực hiện các hành động bất chính khác, nghiên cứu mới được công bố cho thấy.

Nghiên cứu sử dụng 16 mô hình ngôn ngữ lớn được sử dụng rộng rãi nhất để tạo ra 576.000 mẫu mã, phát hiện ra rằng 440.000 phần phụ thuộc gói mà chúng chứa là “bị ảo giác,” có nghĩa là chúng không tồn tại. Các mô hình nguồn mở bị ảo giác nhiều nhất, với 21% các phần phụ thuộc liên kết đến các thư viện không tồn tại. Phụ thuộc là một thành phần mã thiết yếu mà một đoạn mã riêng biệt yêu cầu để hoạt động bình thường. Sự phụ thuộc giúp các nhà phát triển tiết kiệm những rắc rối khi viết lại mã và là một phần thiết yếu của chuỗi cung ứng phần mềm hiện đại.

Đoạn hồi tưởng ảo giác gói

Những sự phụ thuộc không tồn tại này thể hiện mối đe dọa đối với chuỗi cung ứng phần mềm bằng cách làm trầm trọng thêm cái gọi là các cuộc tấn công nhầm lẫn phụ thuộc. Các cuộc tấn công này hoạt động bằng cách khiến gói phần mềm truy cập sai phần phụ thuộc thành phần, chẳng hạn như xuất bản gói độc hại và đặt tên giống với gói hợp pháp nhưng có tem phiên bản mới hơn. Trong một số trường hợp, phần mềm phụ thuộc vào gói sẽ chọn phiên bản độc hại thay vì phiên bản hợp pháp vì phiên bản trước có vẻ mới hơn.

Còn được gọi là nhầm lẫn gói, hình thức tấn công này là đầu tiên được chứng minh vào năm 2021, trong một vụ khai thác bằng chứng khái niệm thực thi mã giả trên các mạng thuộc một số công ty lớn nhất hành tinh, bao gồm cả Apple, Microsoft và Tesla. Nó có một loại kỹ thuật được sử dụng trong các cuộc tấn công chuỗi cung ứng phần mềm, nhằm mục đích đầu độc phần mềm ngay tại nguồn của nó nhằm cố gắng lây nhiễm cho tất cả người dùng ở hạ lưu.

“Sau khi kẻ tấn công xuất bản một gói dưới cái tên ảo giác, chứa một số mã độc, chúng sẽ dựa vào mô hình gợi ý cái tên đó cho những người dùng không nghi ngờ,” Joseph Spracklen, Tiến sĩ Đại học Texas tại San Antonio. sinh viên và nhà nghiên cứu chính, nói với Ars qua email. “Nếu người dùng tin tưởng vào đầu ra của LLM và cài đặt gói mà không xác minh cẩn thận, tải trọng của kẻ tấn công, ẩn trong gói độc hại, sẽ được thực thi trên hệ thống của người dùng.”

Trong AI, ảo giác xảy ra khi LLM tạo ra kết quả đầu ra không chính xác về mặt thực tế, vô nghĩa hoặc hoàn toàn không liên quan đến nhiệm vụ mà nó được giao. Ảo giác từ lâu đã đeo bám LLM vì chúng làm giảm tính hữu dụng và độ tin cậy của chúng, đồng thời tỏ ra khó dự đoán và khắc phục. Trong một giấy dự kiến sẽ được trình bày tại Hội nghị chuyên đề về bảo mật USENIX năm 2025, họ đã đặt tên cho hiện tượng này là ảo giác gói “.”

Trong nghiên cứu này, các nhà nghiên cứu đã thực hiện 30 bài kiểm tra, 16 bài bằng ngôn ngữ lập trình Python và 14 bài bằng JavaScript, tạo ra 19.200 mẫu mã cho mỗi bài kiểm tra, nâng tổng số lên 576.000 mẫu mã. Trong số 2,23 triệu tài liệu tham khảo gói có trong các mẫu đó, 440.445, hoặc 19,7 phần trăm, chỉ ra các gói không tồn tại. Trong số 440.445 ảo giác gói hàng này, 205.474 có tên gói hàng độc đáo.

Một trong những điều khiến ảo giác gói hàng có khả năng hữu ích trong các cuộc tấn công chuỗi cung ứng là 43% ảo giác gói hàng được lặp lại qua 10 truy vấn. “Ngoài ra,” các nhà nghiên cứu đã viết, “58% trường hợp, một gói ảo giác được lặp lại nhiều lần trong 10 lần lặp, điều này cho thấy phần lớn ảo giác không chỉ đơn giản là lỗi ngẫu nhiên mà là một hiện tượng lặp lại kéo dài qua nhiều lần lặp. Điều này rất có ý nghĩa vì ảo giác dai dẳng có giá trị hơn đối với các tác nhân độc hại muốn khai thác lỗ hổng này và khiến vectơ tấn công ảo giác trở thành mối đe dọa khả thi hơn.”

Nói cách khác, nhiều ảo giác gói không phải là lỗi ngẫu nhiên một lần. Đúng hơn, tên cụ thể của các gói không tồn tại được lặp đi lặp lại. Những kẻ tấn công có thể nắm bắt mô hình bằng cách xác định các gói hàng không tồn tại bị ảo giác nhiều lần. Sau đó, những kẻ tấn công sẽ xuất bản phần mềm độc hại bằng cách sử dụng những tên đó và chờ số lượng lớn nhà phát triển truy cập chúng.

Nghiên cứu đã phát hiện ra sự khác biệt trong LLM và ngôn ngữ lập trình tạo ra nhiều ảo giác gói nhất. Tỷ lệ ảo giác gói trung bình được tạo ra bởi các LLM nguồn mở như CodeLlama và DeepSeek là gần 22%, so với hơn 5% một chút của các mô hình thương mại. Mã được viết bằng Python dẫn đến ít ảo giác hơn mã JavaScript, với mức trung bình gần 16% so với hơn 21% một chút đối với JavaScript. Khi được hỏi điều gì đã gây ra sự khác biệt, Spracklen viết:

Đây là một câu hỏi khó vì các mô hình ngôn ngữ lớn là những hệ thống cực kỳ phức tạp, khiến việc truy tìm trực tiếp quan hệ nhân quả trở nên khó khăn. Điều đó nói lên rằng, chúng tôi đã quan sát thấy sự chênh lệch đáng kể giữa các mô hình thương mại (chẳng hạn như dòng ChatGPT) và các mô hình nguồn mở, điều này gần như chắc chắn là do số lượng tham số lớn hơn nhiều của các biến thể thương mại. Hầu hết các ước tính đều cho thấy các mô hình ChatGPT có thông số nhiều hơn ít nhất 10 lần so với các mô hình nguồn mở mà chúng tôi đã thử nghiệm, mặc dù kiến trúc chính xác và chi tiết đào tạo vẫn là độc quyền. Điều thú vị là, trong số các mô hình nguồn mở, chúng tôi không tìm thấy mối liên hệ rõ ràng giữa kích thước mô hình và tỷ lệ ảo giác, có thể là do tất cả chúng đều hoạt động trong phạm vi tham số tương đối nhỏ hơn.

Ngoài kích thước mô hình, sự khác biệt trong dữ liệu huấn luyện, tinh chỉnh, huấn luyện hướng dẫn và điều chỉnh an toàn đều có thể đóng một vai trò trong tỷ lệ ảo giác gói hàng. Các quy trình này nhằm cải thiện khả năng sử dụng mô hình và giảm một số loại lỗi nhất định, nhưng chúng có thể có những tác động không lường trước được đối với các hiện tượng như ảo giác gói hàng.

Tương tự, tỷ lệ ảo giác cao hơn đối với các gói JavaScript so với Python cũng khó xác định rõ ràng. Chúng tôi suy đoán rằng nó bắt nguồn từ thực tế là JavaScript có số lượng gói trong hệ sinh thái của nó nhiều hơn Python khoảng 10 lần, kết hợp với không gian tên phức tạp hơn. Với bối cảnh gói lớn hơn và phức tạp hơn nhiều, các mô hình khó nhớ chính xác tên gói cụ thể hơn, dẫn đến dự đoán bên trong của họ không chắc chắn hơn và cuối cùng là tỷ lệ gói bị ảo giác cao hơn.

Những phát hiện này là mới nhất để chứng minh tính không đáng tin cậy vốn có của đầu ra LLM. Với CTO Kevin Scott của Microsoft dự đoán 95 phần trăm mã đó sẽ được tạo ra bởi AI trong vòng năm năm, ở đây, hy vọng các nhà phát triển chú ý đến thông điệp.

Tác giả tanthanh Admin
Bài viết trước Google: Chính phủ đang sử dụng các cuộc tấn công lỗ hổng bảo mật zero-day nhiều hơn bao giờ hết.

Google: Chính phủ đang sử dụng các cuộc tấn công lỗ hổng bảo mật zero-day nhiều hơn bao giờ hết.

Bài viết tiếp theo

CVE, nguồn thông tin an ninh mạng toàn cầu, suýt bị Bộ An ninh Nội địa (DHS) cắt giảm chỉ vài giờ trước khi bị đóng cửa.

CVE, nguồn thông tin an ninh mạng toàn cầu, suýt bị Bộ An ninh Nội địa (DHS) cắt giảm chỉ vài giờ trước khi bị đóng cửa.
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899