Copilot hiển thị các trang GitHub riêng tư, một số trang đã bị Microsoft xóa

Tác giả tanthanh 14/02/2026 11 phút đọc

Trợ lý AI Copilot của Microsoft đang phơi bày nội dung của hơn 20.000 kho GitHub riêng tư từ các công ty bao gồm Google, Intel, Huawei, PayPal, IBM, Tencent và trớ trêu thay, Microsoft.

Các kho này, thuộc hơn 16.000 tổ chức, ban đầu được đăng lên GitHub dưới dạng công khai, nhưng sau đó được đặt thành riêng tư, thường là sau khi các nhà phát triển chịu trách nhiệm nhận ra rằng chúng chứa thông tin xác thực cho phép truy cập trái phép hoặc các loại dữ liệu bí mật khác. Tuy nhiên, thậm chí nhiều tháng sau, các trang riêng tư vẫn có sẵn toàn bộ thông qua Copilot.

Công ty bảo mật AI Lasso đã phát hiện ra hành vi này vào nửa cuối năm 2024. Sau khi phát hiện vào tháng 1 rằng Copilot tiếp tục lưu trữ các kho riêng tư và cung cấp chúng, Lasso bắt đầu đo lường mức độ thực sự của vấn đề.

Kho lưu trữ Zombie

“Sau khi nhận ra rằng bất kỳ dữ liệu nào trên GitHub, ngay cả khi chỉ công khai trong giây lát, đều có thể được lập chỉ mục và có khả năng bị lộ bởi các công cụ như Copilot, chúng tôi rất ngạc nhiên trước mức độ dễ dàng truy cập thông tin này, các nhà nghiên cứu Ophir Dror và Bar Lanyado của ” Lasso đã viết trong a post vào thứ năm. “Quyết tâm tìm hiểu toàn bộ mức độ của vấn đề, chúng tôi bắt đầu tự động hóa quy trình xác định các kho lưu trữ zombie (các kho lưu trữ từng là công khai và hiện là riêng tư) và xác thực các phát hiện của chúng tôi.”

⁇ Sau khi phát hiện ra Microsoft đã phơi bày một trong những kho lưu trữ riêng của Lasso, các nhà nghiên cứu Lasso đã truy tìm vấn đề đến cơ chế bộ nhớ cache trong Bing. Công cụ tìm kiếm của Microsoft đã lập chỉ mục các trang khi chúng được xuất bản công khai và không bao giờ bận tâm đến việc xóa các mục sau khi các trang được đổi thành riêng tư trên GitHub. Vì Copilot sử dụng Bing làm công cụ tìm kiếm chính nên dữ liệu riêng tư cũng có sẵn thông qua bot trò chuyện AI.

Sau khi Lasso báo cáo sự cố vào tháng 11, Microsoft đã đưa ra những thay đổi được thiết kế để khắc phục nó. Lasso xác nhận rằng dữ liệu riêng tư không còn có sẵn thông qua bộ đệm Bing, nhưng nó tiếp tục tạo ra một khám phá thú vị về tính khả dụng trong Copilot của kho lưu trữ GitHub đã được đặt ở chế độ riêng tư sau một vụ kiện mà Microsoft đã đệ trình. Vụ kiện cáo buộc kho lưu trữ đã lưu trữ các công cụ được thiết kế đặc biệt để vượt qua các lan can bảo vệ an toàn và bảo mật được tích hợp trong các dịch vụ AI tổng hợp của công ty. Kho lưu trữ sau đó đã bị xóa khỏi GitHub, nhưng hóa ra, Copilot vẫn tiếp tục cung cấp các công cụ này.

de3u-repository-still-in-copilot
Nh chụp màn hình cho thấy Copilot tiếp tục phục vụ các công cụ Microsoft đã thực hiện hành động để xóa khỏi GitHub. Credit: Lasso
Lasso cuối cùng đã xác định rằng bản sửa lỗi của Microsoft liên quan đến việc cắt quyền truy cập vào giao diện người dùng Bing đặc biệt, một khi có sẵn tại cc.bingj.com, cho công chúng. Tuy nhiên, bản sửa lỗi đã không xuất hiện để xóa các trang riêng tư khỏi chính bộ đệm. Do đó, Copilot vẫn có thể truy cập được thông tin cá nhân, do đó sẽ cung cấp thông tin đó cho người dùng Copilot đã yêu cầu.

Các nhà nghiên cứu Lasso giải thích:

Mặc dù tính năng liên kết được lưu trong bộ nhớ cache của Bing đã bị vô hiệu hóa, các trang được lưu trong bộ nhớ cache vẫn tiếp tục xuất hiện trong kết quả tìm kiếm. Điều này chỉ ra rằng bản sửa lỗi là một bản vá tạm thời và mặc dù quyền truy cập công cộng bị chặn nhưng dữ liệu cơ bản vẫn chưa bị xóa hoàn toàn.

Khi chúng tôi xem xét lại cuộc điều tra của chúng tôi về Microsoft Copilot, những nghi ngờ của chúng tôi đã được xác nhận: Copilot vẫn có quyền truy cập vào dữ liệu được lưu trong bộ nhớ đệm không còn có sẵn cho người dùng con người. Tóm lại, bản sửa lỗi chỉ là một phần, người dùng con người đã bị ngăn không cho truy xuất dữ liệu được lưu trong bộ nhớ cache, nhưng Copilot vẫn có thể truy cập nó.

Bài đăng trình bày các bước đơn giản mà bất kỳ ai cũng có thể thực hiện để tìm và xem kho lưu trữ riêng tư khổng lồ mà Lasso đã xác định.

Không có kem đánh răng nào được đưa trở lại ống

Các nhà phát triển thường xuyên nhúng mã thông báo bảo mật, khóa mã hóa riêng tư và thông tin nhạy cảm khác trực tiếp vào mã của họ, bất chấp các phương pháp hay nhất từ lâu đã kêu gọi nhập dữ liệu đó thông qua các phương tiện an toàn hơn. Thiệt hại tiềm ẩn này trở nên tồi tệ hơn khi mã này được cung cấp trong các kho công cộng, một lỗi bảo mật phổ biến khác. Hiện tượng đã xảy ra hơn và hơn cho hơn một thập k.

Khi những loại sai sót này xảy ra, các nhà phát triển thường nhanh chóng đặt các kho lưu trữ ở chế độ riêng tư với hy vọng ngăn chặn được hậu quả. Những phát hiện của Lasso cho thấy rằng chỉ đơn giản là làm cho mã riêng tư là không đ. Sau khi bị lộ, thông tin xác thực sẽ bị xâm phạm không thể sửa chữa được. Cách duy nhất là xoay tất cả thông tin xác thực.

Lời khuyên này vẫn không giải quyết các vấn đề phát sinh khi dữ liệu nhạy cảm khác được đưa vào các kho lưu trữ được chuyển từ công khai sang riêng tư. Microsoft đã phải chịu chi phí pháp lý để loại bỏ các công cụ khỏi GitHub sau khi cáo buộc họ vi phạm một loạt luật, bao gồm Đạo luật gian lận và lạm dụng máy tính, Đạo luật bản quyền thiên niên kỷ kỹ thuật số, Đạo luật Lanham và Đạo luật các tổ chức bị ảnh hưởng và tham nhũng của Racketeer. Luật sư của công ty chiếm ưu thế trong việc loại bỏ các công cụ. Cho đến nay, Copilot vẫn tiếp tục phá hoại công việc này bằng cách cung cấp các công cụ này.

Trong một tuyên bố gửi qua email được gửi sau khi bài đăng này được đưa vào hoạt động, Microsoft đã viết: “Người ta thường hiểu rằng các mô hình ngôn ngữ lớn thường được đào tạo dựa trên thông tin có sẵn công khai trên web. Nếu người dùng muốn tránh công khai nội dung của mình để đào tạo các mô hình này, họ được khuyến khích giữ kho lưu trữ của mình ở chế độ riêng tư mọi lúc.”

Tác giả tanthanh Admin
Bài viết trước Điện thoại Android của sinh viên Serbia bị xâm phạm do khai thác từ Cellebrite

Điện thoại Android của sinh viên Serbia bị xâm phạm do khai thác từ Cellebrite

Bài viết tiếp theo

Hàng nghìn bộ định tuyến TP-Link bị hack đã được sử dụng trong các cuộc tấn công chiếm đoạt tài khoản kéo dài nhiều năm.

Hàng nghìn bộ định tuyến TP-Link bị hack đã được sử dụng trong các cuộc tấn công chiếm đoạt tài khoản kéo dài nhiều năm.
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899