Cloudflare cho biết trang web AI Perplexity sử dụng “chiến thuật tàng hình” để coi thường các sắc lệnh không thu thập thông tin

Tác giả tanthanh 10/02/2026 9 phút đọc

Công cụ tìm kiếm AI Perplexity đang sử dụng bot tàng hình và các chiến thuật khác để trốn tránh các chỉ thị không thu thập dữ liệu của trang web, một cáo buộc rằng nếu true vi phạm các quy tắc Internet đã tồn tại hơn ba thập kỷ, dịch vụ tối ưu hóa và bảo mật mạng Cloudflare cho biết hôm thứ Hai.

Trong một bài blog, các nhà nghiên cứu của Cloudflare cho biết công ty đã nhận được khiếu nại từ những khách hàng không cho phép bot cạo Perplexity bằng cách triển khai cài đặt trong tệp.txt robot sites’ của họ và thông qua tường lửa ứng dụng Web đã chặn trình thu thập thông tin Perplexity đã khai báo. Cloudflare cho biết, bất chấp những bước đó, Perplexity vẫn tiếp tục truy cập nội dung của sites’.

Các nhà nghiên cứu cho biết sau đó họ bắt đầu tự kiểm tra nó và phát hiện ra rằng khi các trình thu thập thông tin Perplexity được biết đến gặp phải các khối từ tệp robots.txt hoặc quy tắc tường lửa, Perplexity sau đó đã tìm kiếm các trang web bằng cách sử dụng bot tàng hình tuân theo một loạt chiến thuật để che giấu hoạt động của nó.

>10.000 tên miền và hàng triệu yêu cầu

“Trình thu thập thông tin không được khai báo này đã sử dụng nhiều IP không được liệt kê trong phạm vi IP chính thức của Perplexity và sẽ xoay qua các IP này để đáp ứng chính sách robots.txt hạn chế và chặn từ Cloudflare, các nhà nghiên cứu viết. “Ngoài việc luân chuyển IP, chúng tôi còn quan sát thấy các yêu cầu đến từ các ASN khác nhau nhằm cố gắng trốn tránh các khối trang web hơn nữa. Hoạt động này được quan sát trên hàng chục nghìn tên miền và hàng triệu yêu cầu mỗi ngày.”

Các nhà nghiên cứu đã cung cấp sơ đồ sau để minh họa quy trình của kỹ thuật mà họ cho là Sự bối rối được sử dụng.

 

alleged-perplexity-stealth-crawler-1024x623
Credit: Cloudflare
Nếu đúng, việc trốn tránh đã coi thường các chuẩn mực Internet đã tồn tại trong hơn ba thập kỷ. Năm 1994, kỹ sư Martijn Koster đã đề xuất Giao thức loại trừ robot, cung cấp định dạng có thể đọc được bằng máy để thông báo cho trình thu thập thông tin rằng chúng không được phép trên một trang web nhất định. Các trang web mà nội dung của họ lập chỉ mục đã cài đặt tệp robots.txt đơn giản ở đầu trang chủ của h. Tiêu chuẩn này đã được tuân thủ và xác nhận rộng rãi kể từ đó, chính thức trở thành tiêu chuẩn của Lực lượng Đặc nhiệm Kỹ thuật Internet tại 2022.

Cloudflare không phải là người đầu tiên nói rằng Sự bối rối vi phạm tinh thần nếu không phải là chữ cái của chuẩn mực. Năm ngoái, Giám đốc điều hành Reddit Steve Huffman nói với The Verge rằng việc ngăn chặn Perplexity— và hai công cụ AI khác của Microsoft và Anthropic— là a đau thực sự ở mông.” Huffman tiếp tục nói: “Chúng tôi đã để Microsoft, Anthropic và Perplexity hoạt động như thể tất cả nội dung trên Internet đều miễn phí cho họ sử dụng. Đó là vị trí thực sự của họ.”

Sự bối rối đã phải đối mặt với cáo buộc từ một số nhà xuất bản khác rằng họ đã đạo văn nội dung của họ. Forbes, ví dụ, cáo buộc Perplexity “trộm cắp hoài nghi ” sau khi xuất bản một bài đăng “cực kỳ giống với bài báo độc quyền của Forbes’” được đăng một ngày trước đó. Ấn phẩm chị em Ars Technica Wired có tuyên bố tương tự được san bằng. Nó trích dẫn những gì nó nói là các mẫu lưu lượng truy cập đáng ngờ từ các địa chỉ IP, có khả năng được liên kết với Perplexity, đã bỏ qua các loại trừ robots.txt. Sự bối rối cũng được phát hiện đã thao túng chuỗi ID bots’ thu thập thông tin của nó để vượt qua các khối trang web.

Các nhà nghiên cứu của Cloudflare cho biết để đáp lại những phát hiện của họ, công ty đang thực hiện các hành động để ngăn chặn trình thu thập thông tin truy cập vào các trang web sử dụng dịch vụ phân phối nội dung của mình.

“Có những ưu tiên rõ ràng rằng trình thu thập thông tin phải minh bạch, phục vụ mục đích rõ ràng, thực hiện một hoạt động cụ thể và quan trọng nhất là tuân theo các chỉ thị và ưu tiên của trang web,” mà họ đã viết. “Dựa trên hành vi được quan sát của Perplexity, không tương thích với các tùy chọn đó, chúng tôi đã hủy liệt kê chúng dưới dạng bot đã được xác minh và thêm phương pháp phỏng đoán vào các quy tắc được quản lý của chúng tôi để chặn hoạt động thu thập thông tin lén lút này.”

Các đại diện của Perplexity đã không trả lời email hỏi xem các cáo buộc có đúng không.

 

 
Tác giả tanthanh Admin
Bài viết trước Tin tặc lừa đảo qua điện thoại lại ra tay, lần này nhắm vào Cisco.

Tin tặc lừa đảo qua điện thoại lại ra tay, lần này nhắm vào Cisco.

Bài viết tiếp theo

Lỗ hổng bảo mật SharePoint với mức độ nghiêm trọng 9.8 đang bị khai thác trên toàn cầu.

Lỗ hổng bảo mật SharePoint với mức độ nghiêm trọng 9.8 đang bị khai thác trên toàn cầu.
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899