Các bot AI hiện đã đánh bại 100% số CAPTCHA hình ảnh giao thông đó

Tác giả tanthanh 13/03/2026 12 phút đọc

Bất cứ ai đã lướt web một thời gian có lẽ đã quen với việc nhấp qua lưới hình ảnh đường phố CAPTCHA, xác định các vật thể hàng ngày để chứng minh rằng họ là con người chứ không phải bot tự động. Tuy nhiên, hiện nay, nghiên cứu mới tuyên bố rằng các bot chạy cục bộ sử dụng các mô hình nhận dạng hình ảnh được đào tạo đặc biệt có thể phù hợp với hiệu suất ở cấp độ con người theo phong cách CAPTCHA này, đạt được tỷ lệ thành công 100% mặc dù rõ ràng không phải là con người.

ETH Zurich Nghiên cứu sinh Andreas Plesner và các đồng nghiệp của ông’ nghiên cứu mới, có sẵn dưới dạng giấy in sẵn, tập trung vào ReCAPTCHA v2 của Google, thách thức người dùng xác định hình ảnh đường phố nào trong lưới chứa các mục như xe đạp, lối băng qua đường, núi, cầu thang hoặc đèn giao thông. Google bắt đầu loại bỏ dần hệ thống đó từ nhiều năm trước ủng hộ “invisible” reCAPTCHA v3 phân tích tương tác của người dùng thay vì đưa ra thách thức rõ ràng.

Mặc dù vậy, reCAPTCHA v2 cũ hơn là vẫn được sử dụng bởi hàng triệu trang web. Và ngay cả những trang web sử dụng reCAPTCHA v3 được cập nhật đôi khi cũng sẽ như vậy sử dụng reCAPTCHA v2 làm dự phòng khi hệ thống cập nhật cung cấp cho người dùng xếp hạng độ tin cậy “human” thấp.

Nói YOLO với CAPTCHA

Để chế tạo một bot có thể đánh bại reCAPTCHA v2, các nhà nghiên cứu đã sử dụng một phiên bản tinh chỉnh của mô hình nhận dạng đối tượng YOLO (“You Only Look Once”) mã nguồn mở, mà độc giả lâu năm có thể nhớ cũng đã được sử dụng trong các bot gian lận trò chơi điện tử. Các nhà nghiên cứu cho biết mô hình YOLO “nổi tiếng với khả năng phát hiện các vật thể trong thời gian thực” và “có thể được sử dụng trên các thiết bị có sức mạnh tính toán hạn chế, cho phép người dùng độc hại tấn công quy mô lớn.”

Sau khi đào tạo mô hình trên 14.000 hình ảnh giao thông được gắn nhãn, các nhà nghiên cứu đã có một hệ thống có thể xác định xác suất rằng bất kỳ hình ảnh lưới CAPTCHA nào được cung cấp đều thuộc về một trong 13 danh mục ứng cử viên của reCAPTCHA v2’s. Các nhà nghiên cứu cũng sử dụng một mô hình YOLO riêng biệt, được đào tạo trước cho những gì họ gọi là thử thách “loại 2”, trong đó CAPTCHA yêu cầu người dùng xác định phần nào của một hình ảnh được phân đoạn duy nhất chứa một loại đối tượng nhất định (mô hình phân đoạn này chỉ hoạt động trên chín trong số 13 loại đối tượng và chỉ yêu cầu một hình ảnh mới khi được trình bày cùng với bốn loại còn lại).

Tùy thuộc vào loại đối tượng được xác định, mô hình YOLO có thể xác định chính xác từng hình ảnh CAPTCHA ở bất kỳ đâu từ 69% thời gian (đối với xe máy) đến 100% thời gian (đối với vòi chữa cháy). Hiệu suất đó—kết hợp với các biện pháp phòng ngừa khác—đủ mạnh để luôn lọt qua mạng CAPTCHA, đôi khi sau nhiều thử thách riêng lẻ do hệ thống đưa ra. Trên thực tế, bot có thể giải quyết CAPTCHA trung bình trong ít thử thách hơn một chút so với con người trong các thử nghiệm tương tự (mặc dù sự cải thiện so với con người không có ý nghĩa thống kê).

Trận chiến vẫn tiếp tục

Mặc dù đã có những nghiên cứu học thuật trước đây cố gắng sử dụng các mô hình nhận dạng hình ảnh để giải reCAPTCHA, nhưng chúng chỉ có thể thành công trong khoảng từ 68 đến 71% thời gian. Theo các tác giả của bài báo mới, việc tăng lên tỷ lệ thành công 100% cho thấy rằng chúng ta hiện đã chính thức ở độ tuổi ngoài captcha,“.

Nhưng đây không phải là một vấn đề hoàn toàn mới trong thế giới CAPTCHA. Từ năm 2008, các nhà nghiên cứu đã chỉ ra cách huấn luyện bot đột phá CAPTCHA âm thanh dành cho người dùng khiếm th. Và đến năm 2017, mạng lưới thần kinh đã đang được sử dụng để đánh bại CAPTCHA dựa trên văn bản điều đó yêu cầu người dùng nhập các chữ cái nhìn thấy trong phông chữ bị cắt xén.

Tuy nhiên, khi các hệ thống trí tuệ nhân tạo ngày càng trở nên tốt hơn trong việc bắt chước ngày càng nhiều nhiệm vụ mà trước đây được coi là dành riêng cho con người, việc đảm bảo rằng người dùng ở đầu bên kia của trình duyệt web đó thực sự là một con người có thể ngày càng khó khăn hơn.

“Theo một nghĩa nào đó, một captcha tốt đánh dấu ranh giới chính xác giữa cỗ máy thông minh nhất và con người kém thông minh nhất, các tác giả của bài báo viết. “Khi các mô hình học máy bám sát khả năng của con người, việc tìm kiếm các captcha tốt đã trở nên khó khăn hơn.”