Cloudflare chặn bot AI mặc định, đề xuất mô hình trả phí để quét dữ liệu web

Trần Ngọc Bảo Trân Tác giả Trần Ngọc Bảo Trân 19/09/2025 7 phút đọc

Cloudflare chặn bot AI, mở hướng đi mới cho việc thu phí nội dung trên internet

Cuộc chiến giữa các nhà sáng tạo nội dung và những công ty phát triển trí tuệ nhân tạo vừa mở ra một mặt trận mới khi Cloudflare – nhà cung cấp hạ tầng internet hàng đầu – thông báo sẽ mặc định chặn bot AI thu thập dữ liệu. Đây là bước đi mang tính phòng thủ, nhằm ngăn chặn các hệ thống AI tiếp tục sử dụng trái phép nội dung trên web để huấn luyện mô hình.

CloudFlare là gì? Chức năng, Ưu, nhược điểm & Cách sử dụng

Thông báo này đến trong bối cảnh hàng loạt vụ kiện giữa tác giả, nhà xuất bản và các “ông lớn AI” đang diễn ra. Nhiều nhà sáng tạo cáo buộc nội dung có bản quyền đã bị sử dụng mà không có sự cho phép hay đền bù xứng đáng. Trong khi tranh chấp pháp lý vẫn tiếp diễn, Cloudflare chọn cách đi trước bằng việc ngăn chặn từ gốc – hạn chế AI crawler (trình thu thập dữ liệu) tiếp cận website ngay từ đầu.

Không chỉ dừng lại ở việc chặn bot, Cloudflare còn đề xuất xây dựng một thị trường nội dung. Tại đây, các công ty AI phải trả phí để được quyền quét và sử dụng dữ liệu, đồng thời website sẽ nhận lại khoản bồi thường. “Nội dung chính là nhiên liệu cho các công cụ AI, và điều công bằng là người sáng tạo phải được trả thù lao trực tiếp,” Matthew Prince – CEO của Cloudflare – nhấn mạnh trong một bài viết.

Vì sao website muốn chặn bot AI?

Crawler vốn là một phần tất yếu của internet. Chúng giúp các công cụ tìm kiếm như Google hiểu nội dung trên website và trả kết quả phù hợp cho người dùng. Tuy nhiên, AI crawler lại tạo ra thách thức riêng. Chúng có thể gây quá tải lưu lượng, đặc biệt với các website nhỏ, nhưng lại không mang lại lợi ích trực tiếp.

Khác với Google, vốn thu thập dữ liệu để điều hướng người dùng quay trở lại website, việc quét dữ liệu cho AI thường không trả lại lưu lượng. Thậm chí, nếu người dùng chỉ cần câu trả lời từ chatbot mà không truy cập trang gốc, website còn chịu thiệt hại nhiều hơn. Đây cũng là lý do mà nhiều nền tảng lớn như Pinterest, Reddit cùng các nhà xuất bản lên tiếng ủng hộ động thái của Cloudflare.

Cloudflare explained: its impact on the internet and what happens when it fails | Cloud Studio IoT

Steve Huffman, CEO của Reddit, cho biết: “Toàn bộ hệ sinh thái từ nhà sáng tạo, nền tảng, người dùng đến crawler sẽ minh bạch và cân bằng hơn khi việc thu thập dữ liệu được kiểm soát rõ ràng. Cloudflare đang đi đúng hướng.”

Cuộc giằng co dữ liệu huấn luyện AI

Các mô hình AI cần lượng dữ liệu khổng lồ để hoạt động. Chính điều này đã dẫn đến hàng chục vụ kiện. Tuần trước, hai phán quyết lớn được đưa ra.

Trong một vụ, tòa án liên bang cho rằng Anthropic không vi phạm luật khi sử dụng sách có bản quyền để huấn luyện AI Claude theo nguyên tắc “fair use”. Tuy vậy, việc công ty này tạo thư viện lưu trữ lâu dài các cuốn sách lại bị coi là vi phạm, buộc mở lại phiên tòa.

Ở một vụ khác, Meta giành chiến thắng trước nhóm 13 tác giả, nhưng thẩm phán Vince Chhabria khẳng định phán quyết này không đồng nghĩa các vụ kiện tương lai sẽ có kết quả tương tự. Ông cho rằng các nguyên đơn “đưa ra lập luận sai và không có bằng chứng đủ mạnh”.

Điều này cho thấy cuộc chiến pháp lý còn kéo dài và chưa có lời giải cuối cùng cho vấn đề bản quyền trong huấn luyện AI.

Thị trường dữ liệu: ý tưởng không mới nhưng đang nóng lên

Việc thu phí bot AI không phải là khái niệm hoàn toàn mới. Công ty Tollbit từng giới thiệu dịch vụ cho phép website tính phí các công ty AI khi thu thập dữ liệu. Will Allen – Giám đốc AI control và bảo mật của Tollbit – nhận định: “Chúng ta mới chỉ ở giai đoạn đầu của việc hình thành thị trường nội dung. Đây sẽ là lĩnh vực có nhiều mô hình khác nhau cùng phát triển.”

Với quyết định của Cloudflare, tương lai internet có thể thay đổi đáng kể. Nếu mô hình trả phí được áp dụng rộng rãi, các công ty AI sẽ phải trả tiền để tiếp cận dữ liệu, đồng nghĩa với việc nhà sáng tạo có thêm nguồn thu, còn AI buộc phải hoạt động minh bạch hơn

Trần Ngọc Bảo Trân
Tác giả Trần Ngọc Bảo Trân Admin
Bài viết trước Bộ Sạc Nhanh Anker Prime 6 Cổng 250W GaNPrime A2345 – Sạc Nhanh, Tiết Kiệm Không Gian

Bộ Sạc Nhanh Anker Prime 6 Cổng 250W GaNPrime A2345 – Sạc Nhanh, Tiết Kiệm Không Gian

Bài viết tiếp theo

Bảo mật dữ liệu sinh trắc học trên TCL D2 Pro – vì sao không cần lo về đám mây?

Bảo mật dữ liệu sinh trắc học trên TCL D2 Pro – vì sao không cần lo về đám mây?
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899