LLM có thể vạch mặt người dùng bút danh ở quy mô lớn với độ chính xác đáng ngạc nhiên

Tác giả tanthanh 13/03/2026 19 phút đọc

Các nhà nghiên cứu cho biết tài khoản Burner trên các trang truyền thông xã hội ngày càng có thể được phân tích để xác định những người dùng có bút danh đăng bài cho họ bằng AI trong nghiên cứu có hậu quả sâu rộng đối với quyền riêng tư trên Internet.

Phát hiện này, từ một công bố gần đây bài nghiên cứu, dựa trên kết quả thử nghiệm tương quan giữa các cá nhân cụ thể với tài khoản hoặc bài đăng trên nhiều nền tảng truyền thông xã hội. Tỷ lệ thành công lớn hơn nhiều so với công việc ẩn danh cổ điển hiện có dựa vào việc con người tập hợp các bộ dữ liệu có cấu trúc phù hợp cho việc so khớp thuật toán hoặc công việc thủ công của các nhà điều tra lành nghề. Nhớ lại—nghĩa là có bao nhiêu người dùng đã được ẩn danh thành công— lên tới 68%. Precision— có nghĩa là tỷ lệ đoán xác định chính xác người dùng— lên tới 90%.

Tôi biết những gì bạn đã đăng năm ngoái

Những phát hiện này có khả năng nâng cao tính bút danh, một biện pháp bảo mật không hoàn hảo nhưng thường đủ được nhiều người sử dụng để đăng truy vấn và tham gia vào các cuộc thảo luận công khai đôi khi nhạy cảm, đồng thời khiến người khác khó xác định chính xác người nói. Khả năng xác định nhanh chóng và rẻ tiền những người đứng sau những tài khoản bị che khuất như vậy sẽ mở ra cho họ khả năng lừa đảo, rình rập và tập hợp các hồ sơ tiếp thị chi tiết theo dõi nơi diễn giả sống, những gì họ làm để kiếm sống và các thông tin cá nhân khác. Biện pháp bút danh này không còn được áp dụng nữa.

“Những phát hiện của chúng tôi có ý nghĩa quan trọng đối với quyền riêng tư trực tuyến, các nhà nghiên cứu viết. “Người dùng trực tuyến trung bình từ lâu đã hoạt động theo mô hình mối đe dọa tiềm ẩn, trong đó họ giả định bút danh sẽ cung cấp sự bảo vệ đầy đủ vì việc ẩn danh có mục tiêu sẽ đòi hỏi nỗ lực rất nhiều. LLM làm mất hiệu lực giả định này.”

framework-overview-640x232
Tổng quan về khung tước bút danh.
Các nhà nghiên cứu đã thu thập một số bộ dữ liệu từ các trang truyền thông xã hội công cộng để kiểm tra các kỹ thuật trong khi vẫn bảo vệ quyền riêng tư của người nói. Một trong số họ đã thu thập các bài đăng từ hồ sơ Hacker News và LinkedIn và sau đó liên kết chúng bằng cách sử dụng các tài liệu tham khảo đa nền tảng xuất hiện trong hồ sơ người dùng. Sau đó, họ loại bỏ tất cả các tài liệu tham khảo nhận dạng khỏi các bài đăng và chạy một mô hình ngôn ngữ lớn trên đó. Tập dữ liệu thứ hai được lấy từ bản phát hành danh tính vi mô của Netflix, chẳng hạn như sở thích cá nhân, đề xuất và hồ sơ giao dịch. MỘT NĂM 2008 bài nghiên cứu cho thấy rằng bằng cách sử dụng cái được gọi là cuộc tấn công giải thưởng Netflix, danh sách này có thể xác định người dùng và xác định đảng phái chính trị cũng như thông tin cá nhân khác của họ. Kỹ thuật cuối cùng chia lịch sử Reddit của một người dùng.

“Điều chúng tôi nhận thấy là các tác nhân AI này có thể làm điều gì đó mà trước đây rất khó khăn: bắt đầu từ văn bản miễn phí (như bản ghi cuộc phỏng vấn ẩn danh), họ có thể tìm cách nhận dạng đầy đủ một người,” Simon Lermen, đồng tác giả của bài báo, nói với Ars. “Đây là một khả năng khá mới; các phương pháp tiếp cận trước đây về nhận dạng lại thường yêu cầu dữ liệu có cấu trúc và hai bộ dữ liệu có lược đồ tương tự có thể được liên kết với nhau.”

Lermen cho biết, không giống như các phương pháp tước bỏ bút danh cũ hơn, các tác nhân AI có thể duyệt web và tương tác với nó theo nhiều cách giống như con người. Họ có thể sử dụng lý luận mô phỏng để phù hợp với các cá nhân tiềm năng. Trong một thí nghiệm, các nhà nghiên cứu đã xem xét các câu trả lời được đưa ra trong một bảng câu hỏi Anthropic đã đưa ra về cách nhiều người sử dụng AI trong cuộc sống hàng ngày của h. Sử dụng thông tin lấy từ các câu trả lời, các nhà nghiên cứu có thể xác định chính xác 7% trong số 125 người tham gia.

 

Cột 1: Hỏi: Bạn đã sử dụng các công cụ Al như thế nào trong một dự án nghiên cứu gần đây? A: Tôi làm việc trong ngành sinh học, về nghiên cứu liên quan đến [chủ đề nghiên cứu]. Người giám sát của tôi và tôi gần đây đã nói về việc phân tích tác động [của hiện tượng cụ thể]... Nền tảng của tôi là về khoa học vật lý... Trả lời: Tôi đã sử dụng các công cụ Al thường xuyên... để viết [thư viện cụ thể] mã Collum thứ 2 Hồ sơ: • Sinh học tính toán, [trường con] • Giáo dục: nền tảng khoa học vật lý • Có khả năng là nghiên cứu sinh tiến sĩ hoặc postdoc • Công cụ: Python, [thư viện cụ thể] • Tiếng Anh Anh ("phân tích") → Vương quốc Anh hoặc Khối thịnh vượng chung Cột thứ ba: Nghiên cứu sinh về Sinh học, [Đại học], Vương quốc Anh • Trường con nghiên cứu 8[bản in trước BioRxiv] • [Phương pháp nghiên cứu] • Nghiên cứu sinh @[Hồ sơ đại học] v UK-based • Sử dụng [thư viện cụ thể] trong • [GitHub repo]
Deanonymization đầu cuối từ một bảng điểm phỏng vấn duy nhất (với các chi tiết được thay đổi để bảo vệ danh tính của đối tượng). Một tác nhân LLM đã trích xuất các tín hiệu nhận dạng có cấu trúc từ một cuộc trò chuyện, tự động tìm kiếm trên web để xác định một cá nhân ứng viên và xác minh ứng viên khớp với tất cả các tuyên bố được trích xuất.
 
 

Mặc dù tỷ lệ thu hồi 7% là tương đối thấp nhưng nó chứng tỏ khả năng ngày càng tăng của AI trong việc xác định con người dựa trên thông tin rất chung chung mà họ đưa ra. “Việc AI có thể làm được điều này là một kết quả đáng chú ý,” Lermen nói. “Và khi các hệ thống AI trở nên tốt hơn, chúng có thể sẽ trở nên tốt hơn trong việc tìm kiếm ngày càng nhiều danh tính.”

 

 

Trong thí nghiệm thứ hai, các nhà nghiên cứu đã thu thập các nhận xét được đưa ra vào năm 2024 từ subreddit r/movies và ít nhất một trong năm cộng đồng nhỏ hơn: r/horror, r/MovieSuggestions, r/Letterboxd, r/TrueFilm và r/MovieDetails. Kết quả cho thấy ứng viên càng thảo luận nhiều phim thì càng dễ xác định chúng. Trung bình 3,1% người dùng chia sẻ một bộ phim có thể được xác định với độ chính xác 90% và 1,2% trong số họ với độ chính xác 99%. Với 5 đến 9 bộ phim được chia sẻ, độ chính xác 90% và 99% lần lượt tăng lên 8,4% và 2,5% người dùng. Hơn 10 bộ phim được chia sẻ đã tăng tỷ lệ này lên 48,1% và 17%.

Recall-at-precision-thresholds-640x451
 
Trong thí nghiệm thứ ba, các nhà nghiên cứu đã lấy một bộ 5.000 người dùng Reddit. Các nhà nghiên cứu đã thêm 5.000 danh tính “distraction” của người dùng Reddit vào nhóm ứng viên. Các nhà nghiên cứu đã so sánh phương pháp của họ với cuộc tấn công giải thưởng Netflix cũ hơn. Sau đó, họ đã thêm vào danh sách 10.000 hồ sơ ứng viên 5.000 yếu tố gây phân tâm truy vấn bao gồm những người dùng chỉ xuất hiện trong một bộ truy vấn mà không có kết quả khớp thực sự trong nhóm ứng viên.

So với đường cơ sở cổ điển bắt chước cuộc tấn công giải thưởng Netflix để ẩn danh LLM, cái sau vượt trội hơn nhiều so với cái trước.

precision-curves-640x283
Các nhà nghiên cứu đã viết:

(a) Độ chính xác của các đòn tấn công cổ điển giảm xuống rất nhanh, giải thích cho khả năng thu hồi thấp của nó. Ngược lại, độ chính xác của các cuộc tấn công dựa trên LLM phân rã một cách duyên dáng hơn khi kẻ tấn công đưa ra nhiều dự đoán hơn. (b) Cuộc tấn công cổ điển gần như thất bại hoàn toàn ngay cả ở độ chính xác thấp vừa phải. Ngược lại, ngay cả cuộc tấn công LLM đơn giản nhất (Tìm kiếm) cũng đạt được khả năng thu hồi không tầm thường ở độ chính xác thấp và mở rộng nó bằng các bước Lý trí và Hiệu chỉnh tăng gấp đôi Thu hồi @ 99% Độ chính xác.

Kết quả cho thấy LLM, trong khi vẫn dễ bị dương tính giả và các điểm yếu khác, đang nhanh chóng vượt xa các phương pháp truyền thống, sử dụng nhiều tài nguyên hơn để xác định người dùng trực tuyến.

Các nhà nghiên cứu tiếp tục đề xuất các biện pháp giảm thiểu, bao gồm các nền tảng thực thi giới hạn tốc độ truy cập API vào dữ liệu người dùng, phát hiện việc quét tự động và hạn chế xuất dữ liệu số lượng lớn. Các nhà cung cấp LLM cũng có thể giám sát việc lạm dụng mô hình của họ trong các cuộc tấn công deanonymization và xây dựng các lan can bảo vệ khiến các mô hình từ chối yêu cầu deanonymization.

Tất nhiên, một lựa chọn khác là mọi người hạn chế đáng kể việc sử dụng mạng xã hội hoặc ít nhất là thường xuyên xóa bài đăng sau một ngưỡng thời gian đã đặt.

Các nhà nghiên cứu cảnh báo, nếu thành công của LLMs’ trong việc ẩn danh mọi người được cải thiện, các chính phủ có thể sử dụng các kỹ thuật để vạch mặt các nhà phê bình trực tuyến, các tập đoàn có thể tập hợp hồ sơ khách hàng cho quảng cáo siêu nhắm mục tiêu “, ” và những kẻ tấn công có thể xây dựng hồ sơ mục tiêu trên quy mô lớn để khởi động các trò lừa đảo kỹ thuật xã hội được cá nhân hóa cao.

“Những tiến bộ gần đây về khả năng LLM đã cho thấy rõ rằng cần phải suy nghĩ lại các khía cạnh khác nhau của bảo mật máy tính sau các khả năng mạng tấn công do LLM điều khiển, các nhà nghiên cứu cảnh báo. “Công việc của chúng tôi cho thấy điều tương tự cũng có thể đúng đối với quyền riêng tư.”

Tác giả tanthanh Admin
Bài viết trước Xếp hạng độ tuổi mới của PEGI sẽ hạn chế FC 27 đối với trẻ em trên 16 tuổi

Xếp hạng độ tuổi mới của PEGI sẽ hạn chế FC 27 đối với trẻ em trên 16 tuổi

Bài viết tiếp theo

Phần mềm chống vi-rút tốt nhất để bảo vệ máy tính của bạn vào năm 2026

Phần mềm chống vi-rút tốt nhất để bảo vệ máy tính của bạn vào năm 2026
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899