Cloudflare cáo buộc các bot AI của Perplexity “lén lút quét” các trang web bị chặn
Startup tìm kiếm AI Perplexity bị cáo buộc né các hạn chế nhằm ngăn các bot quét web của mình truy cập một số trang web, theo báo cáo từ Cloudflare. Báo cáo này cho biết khi Perplexity gặp phải chặn truy cập, công ty sẽ che giấu danh tính trình thu thập dữ liệu “để cố gắng vượt qua các hạn chế của trang web.”
Điều này làm dấy lên mối lo ngại về việc Perplexity thu thập nội dung mà không được phép, vì năm ngoái công ty đã bị phát hiện bỏ qua paywall và phớt lờ file robots.txt của các trang web. Khi đó, CEO Aravind Srinivas của Perplexity cho rằng hành vi này xuất phát từ các bot bên thứ ba mà trang web sử dụng.
Hiện tại, Cloudflare — một trong những nhà cung cấp hạ tầng internet lớn nhất thế giới — cho biết đã nhận được phàn nàn từ khách hàng rằng bot của Perplexity vẫn truy cập được website của họ ngay cả khi đã thiết lập file robots.txt hoặc tạo các quy tắc Web Application Firewall (WAF) để chặn bot AI của startup này.
Để kiểm tra, Cloudflare tạo các tên miền mới với hạn chế tương tự đối với các scraper AI của Perplexity. Kết quả cho thấy startup này ban đầu sẽ truy cập các trang bằng cách tự nhận dạng là các bot: “PerplexityBot” hoặc “Perplexity-User.”
Tuy nhiên, nếu website chặn AI scraping, Cloudflare cáo buộc Perplexity sẽ thay đổi user agent — thông tin cho biết trình duyệt và thiết bị người dùng — để giả mạo Google Chrome trên macOS. Cloudflare cho biết bot “không khai báo” này còn sử dụng IP xoay vòng, không có trong danh sách IP được Perplexity công bố.
Ngoài ra, Cloudflare còn cáo buộc Perplexity thay đổi các mạng hệ thống tự trị (ASN) để vượt qua các chặn. “Hoạt động này được quan sát trên hàng chục nghìn miền và hàng triệu yêu cầu mỗi ngày,” Cloudflare viết.
Trong phản hồi gửi The Verge, người phát ngôn Perplexity Jesse Dwyer gọi báo cáo của Cloudflare là một “chiêu PR,” và cho rằng “có nhiều hiểu lầm trong bài viết.”
Perplexity cũng công bố phản hồi trên website, cho rằng Cloudflare nhầm lẫn 20–25 triệu yêu cầu user agent với các scraper AI. Công ty khẳng định: “Các agent do người dùng kích hoạt chỉ hoạt động khi có yêu cầu cụ thể, và chỉ lấy nội dung cần thiết để hoàn thành yêu cầu đó.” Perplexity còn nói Cloudflare đã nhầm Perplexity với 3–6 triệu yêu cầu hàng ngày từ BrowserBase, một trình duyệt đám mây cho AI mà Perplexity chỉ “thỉnh thoảng” sử dụng.
Cloudflare đã gỡ Perplexity khỏi danh sách bot được xác minh và triển khai các biện pháp để chặn việc “quét lén” của Perplexity.
CEO Cloudflare Matthew Prince từng nhiều lần nói về “mối đe dọa tồn tại” của AI đối với các nhà xuất bản. Tháng trước, công ty bắt đầu cho phép các website yêu cầu các công ty AI trả phí để quét nội dung và mặc định chặn các AI crawler.
Cập nhật ngày 5/8: Thêm phản hồi của Perplexity.