Google Gemini Tiến Một Bước Gần Hơn Đến Việc Kiểm Soát Máy Tính Của Bạn

Tác giả Trần Ngọc Bảo Trân 12/10/2025 6 phút đọc

Gemini Tiến Một Bước Gần Hơn Đến Việc Tự Động Hóa Toàn Bộ Máy Tính Của Bạn

Google đang thúc đẩy mạnh mẽ sự phát triển của "AI Tác nhân" (agentic AI) với việc ra mắt mô hình Gemini 2.5 Computer Use. Mô hình chuyên biệt này được thiết kế để vượt qua vai trò chatbot đơn thuần và tiến đến khả năng tương tác trực tiếp với giao diện người dùng (UI) trên web và thiết bị di động.

Sự phát triển này được xem là một bước tiến quan trọng, cho phép các tác nhân AI thực hiện các tác vụ phức tạp trên máy tính của bạn gần như không cần sự giám sát của con người.

Google Gemini 2.0: dit wil je weten over de kunstmatige intelligentie

Khả năng Kiểm soát Giao diện Người dùng

Được xây dựng dựa trên khả năng hiểu hình ảnh và suy luận mạnh mẽ của Gemini 2.5 Pro, mô hình Computer Use cho phép các nhà phát triển tạo ra các tác nhân có thể điều hướng trình duyệt hoặc ứng dụng di động giống như con người.

Người dùng chỉ cần cung cấp một yêu cầu bằng ngôn ngữ tự nhiên (natural language prompt), và AI sẽ tự động thực hiện các hành động cần thiết. Các tác vụ này bao gồm:

Nhấp chuột (clicking) vào các nút.
Gõ phím (typing) để điền biểu mẫu.
Cuộn trang (scrolling) để tìm kiếm thông tin.

Ví dụ, người dùng có thể yêu cầu: "Mở Wikipedia, tìm kiếm 'Atlantis,' và tóm tắt lịch sử thần thoại này trong tư tưởng phương Tây." Mô hình sẽ tự động thực hiện việc điều hướng, tìm kiếm và phân tích.

Google mang đến bước tiến quan trọng về AI với Gemini 2.0

Vượt trội hơn các đối thủ cạnh tranh

Theo công bố, Gemini 2.5 Computer Use đã cho thấy hiệu suất vượt trội so với các công cụ tương tự từ các đối thủ như OpenAI và Anthropic. Mô hình này không chỉ đạt độ chính xác cao hơn mà còn duy trì độ trễ thấp hơn trên nhiều tiêu chuẩn kiểm soát web và thiết bị di động.

Mô hình này hoạt động dựa trên một chức năng vòng lặp lặp đi lặp lại, cho phép nó ghi nhớ tất cả các hành động gần đây của mình trong một giao diện cụ thể. Nó phân tích trạng thái màn hình (thông qua ảnh chụp màn hình) để xác định hành động tiếp theo, điều này giúp nó hoạt động ngày càng liền mạch và hiệu quả hơn theo thời gian.

An toàn và Tương lai của AI Tác nhân

Gemini là gì? Giải mã mô hình AI đa năng của Google

Việc trao quyền kiểm soát cho AI cũng đi kèm với những lo ngại về bảo mật. Để giải quyết vấn đề này, Google đã bổ sung một bộ kiểm soát an toàn mà các nhà phát triển có thể sử dụng. Các kiểm soát này nhằm ngăn chặn AI thực hiện các hành động không mong muốn, như:

Vượt qua CAPTCHA (bảo mật hình ảnh).
Xâm phạm bảo mật dữ liệu người dùng.
Kiểm soát các thiết bị y tế hoặc các thiết bị nhạy cảm khác.

Sự ra mắt mô hình Computer Use là một dấu hiệu cho thấy công nghệ đang bước vào kỷ nguyên của AI Tác nhân, nơi AI không chỉ là công cụ trả lời câu hỏi mà còn là một đồng đội ảo có khả năng tự động hóa các công việc phức tạp, mở ra một tương lai mà máy tính của bạn sẽ tự động thực hiện các quy trình làm việc đa bước chỉ bằng một câu lệnh đơn giản.