Liệu AI có thực sự có thể thay thế bàn phím và chuột của bạn không?
Liệu AI có thực sự có thể thay thế bàn phím và chuột của bạn không?
“Này ChatGPT, nhấp chuột trái vào trường nhập mật khẩu trong cửa sổ bật lên xuất hiện ở góc dưới bên trái của màn hình và điền XUS&(#($J, rồi nhấn Enter.”
Vui nhỉ? Không, cảm ơn. Tôi sẽ chỉ cần di chuyển con chuột rẻ tiền của mình và gõ 12 ký tự trên bàn phím kêu lách cách không cần thiết, thay vì đọc to mật khẩu trong không gian làm việc chung.
Thật tuyệt khi thấy ChatGPT hiểu lệnh thoại của bạn, đặt vé giá rẻ cho tám người xem trận đấu của Liverpool tại Anfield và đưa bạn đến màn hình thanh toán. Nhưng này, bạn có tin tưởng giao mật khẩu cho nó không? Hay bạn sẽ không nhập mật khẩu bằng bàn phím vật lý?
Hãy tưởng tượng bạn dốc toàn lực vào AI, rồi nhận ra rằng bước cuối cùng, nơi bạn THỰC SỰ cần đến bàn phím hoặc chuột, là không thể, và giờ bạn bị mắc kẹt. Nhưng đó chính xác là câu hỏi mà nhiều người đã đặt ra sau khi xem các tác nhân AI hào nhoáng và video tự động hóa từ Google, OpenAI và Anthropic.
Đó là một câu hỏi chính đáng
Trí tuệ nhân tạo (AI) là chủ đề chính tại sự kiện Google I/O đầu năm nay. Đến cuối bài phát biểu, tôi tin chắc rằng điện thoại thông minh Android sẽ không còn như xưa nữa. Và theo đó, bất kỳ nền tảng nào mà Gemini sẽ đặt chân đến - từ các ứng dụng Workspace như Gmail đến tính năng dẫn đường trên Google Maps khi đang ngồi trên xe hơi.
Bản demo ấn tượng nhất là Project Mariner, và nguyên mẫu nghiên cứu tiếp theo của Project Astra . Hãy tưởng tượng nó như một trợ lý đàm thoại thế hệ tiếp theo, cho phép bạn trò chuyện và thực hiện những việc thực tế mà không cần chạm vào màn hình hay nhấc bàn phím. Bạn có thể chuyển các truy vấn của mình từ hướng dẫn sử dụng được lưu trữ trên trang web của một thương hiệu sang video hướng dẫn trên YouTube mà không cần phải nhắc lại ngữ cảnh.
Gần như thể khái niệm thực sự về bộ nhớ đã đến với AI . Trong trình duyệt web, nó sẽ đặt vé cho bạn, đưa bạn đến trang cuối cùng, nơi bạn chỉ cần xác nhận xem tất cả thông tin đã được yêu cầu chưa, và bạn sẽ tiến hành thanh toán. Điều này khiến người ta tự hỏi liệu bàn phím và chuột có còn là những khái niệm lỗi thời đối với đầu vào kỹ thuật số hay không khi tương tác giọng nói đang dần chiếm ưu thế trong AI.
Gánh nặng của lỗi lầm
Nadeem Sarwar / Xu hướng số.
Nghe có vẻ kỳ lạ, nhưng máy tính của bạn đã được trang bị tính năng điều khiển bằng giọng nói để điều hướng hệ điều hành. Trên PC Windows và macOS, bạn có thể tìm thấy các công cụ truy cập bằng giọng nói như một phần của bộ công cụ trợ năng. Có một số phím tắt có sẵn để tăng tốc quá trình này, và bạn cũng có thể tự tạo phím tắt của riêng mình.
Với sự ra đời của các mô hình AI thế hệ tiếp theo, chúng ta đang nói về việc loại bỏ bàn phím và chuột đối với tất cả mọi người, chứ không chỉ coi chúng như một công nghệ hỗ trợ.
Có liên quan:
Sora 2 vừa mở khóa các đoạn clip dài hơn, nhưng có một điều đáng lưu ý
Hãy tưởng tượng sự kết hợp giữa Claude Computer Use và dữ liệu đầu vào được theo dõi bằng mắt từ kính thực tế ảo Vision Pro của Apple . Trong trường hợp bạn chưa biết, Computer Use của Anthropic là một tác nhân sử dụng máy tính. Anthropic cho biết nó cho phép AI "sử dụng máy tính theo cách con người làm - bằng cách nhìn vào màn hình, di chuyển con trỏ, nhấp vào các nút và nhập văn bản".
Ngay cả với bàn phím ảo trên không tự điều chỉnh để nhập liệu chính xác, bạn vẫn cần thêm thiết bị cảm biến chuyển động. IEEE
Bây giờ, hãy tưởng tượng một tình huống mà ý định của bạn được truyền đạt bằng giọng nói cho Claude, được micro tích hợp thu nhận và nhiệm vụ được thực hiện. Cho dù bước cuối cùng được yêu cầu là gì, cử chỉ vẫn có thể lấp đầy khoảng trống. Vision Pro đã chứng minh rằng việc điều khiển bằng mắt là khả thi và hoạt động với độ chính xác cao.
Ngoài tai nghe, AI điều khiển bằng giọng nói vẫn có thể hoạt động trên một máy tính thông thường. Hume AI, hợp tác với Anthropic, đang xây dựng một hệ thống có tên là Giao diện Giọng nói Đồng cảm 2 (EVI 2), biến lệnh thoại thành dữ liệu đầu vào máy tính. Gần giống như nói chuyện với Alexa, nhưng thay vì gọi món bông cải xanh, trợ lý AI hiểu những gì chúng ta nói và chuyển thành dữ liệu đầu vào từ bàn phím hoặc chuột.
Nghe thì có vẻ tuyệt vời, nhưng hãy cùng nghĩ đến một vài tình huống thực tế. Bạn sẽ cần một bàn phím để tinh chỉnh các file media. Thực hiện những thay đổi nhỏ trên canvas mã hóa. Điền dữ liệu vào các ô trong một trang tính. Hãy tưởng tượng bạn nói: "Này Song Tử, hãy điền bốn nghìn tám trăm chín mươi lăm đô la vào ô D5 và ghi chú là chi phí đi máy bay nhé?" Ừ, tôi biết mà. Tôi cũng sẽ gõ thôi.
Dặm cuối cùng, không phải là kết thúc
Nếu bạn xem qua bản demo của Chế độ AI trong Tìm kiếm, tác nhân Project Mariner và Gemini Live, bạn sẽ có cái nhìn thoáng qua về điện toán giọng nói. Tất cả những tiến bộ AI này nghe có vẻ vô cùng tiện lợi, cho đến khi chúng không còn như vậy nữa. Ví dụ, khi nào thì việc nói những câu như "Di chuyển đến hộp thoại ở góc trên bên trái và nhấp chuột trái vào nút màu xanh có chữ Xác nhận " trở nên quá khó chịu?
Quá phức tạp, ngay cả khi tất cả các bước trước đó đều được AI thực hiện tự động.
Gemini Live trên Pixel 9a. Google
Và đừng quên vấn đề nan giải. AI có thói quen hoạt động không ổn định . "Ở giai đoạn này, nó vẫn đang trong giai đoạn thử nghiệm—đôi khi khá cồng kềnh và dễ xảy ra lỗi", Anthropic cảnh báo về Claude Computer Use. Tình hình này không khác mấy so với Operator Agent của OpenAI , hay một công cụ tương tự cùng tên hiện đang được Opera, đơn vị phát triển một trình duyệt web khá thú vị, phát triển .
Việc loại bỏ bàn phím và chuột khỏi một chiếc máy tính được tăng cường AI cũng giống như lái một chiếc Tesla với chế độ tự lái hoàn toàn (FSD) , nhưng bạn không còn vô lăng và các nút điều khiển chỉ còn lại chân phanh và chân ga. Chiếc xe chắc chắn sẽ đưa bạn đến một nơi nào đó, nhưng bạn cần phải nắm quyền kiểm soát nếu có sự cố bất ngờ xảy ra.
Trong bối cảnh điện toán, hãy nghĩ đến người xử lý sự cố, nơi bạn PHẢI là người điều khiển. Nhưng hãy giả sử rằng một mô hình AI, chủ yếu được điều khiển bằng giọng nói (và được thu âm bằng micro trên máy tính ưa thích của bạn), đưa bạn đến bước cuối cùng, nơi bạn cần đóng quy trình làm việc, chẳng hạn như thực hiện thanh toán.
Christine Romero-Chan / Xu hướng số
Ngay cả với Passkey, bạn vẫn cần ít nhất xác nhận danh tính bằng cách nhập mật khẩu, mở ứng dụng xác thực hoặc chạm vào cảm biến vân tay? Không nhà sản xuất hệ điều hành hay nhà phát triển ứng dụng nào (đặc biệt là những người xử lý xác minh danh tính) lại để một mô hình AI có quyền kiểm soát hoàn toàn việc xử lý nhiệm vụ quan trọng này.
Việc tự động hóa bằng AI là quá mạo hiểm, ngay cả khi đã có những tiện ích như Passkey . Google thường nói rằng Gemini sẽ học hỏi từ bộ nhớ và các tương tác của chính bạn. Nhưng tất cả bắt đầu bằng việc cho phép nó theo dõi việc sử dụng máy tính của bạn, vốn về cơ bản phụ thuộc vào đầu vào bàn phím và chuột. Vậy nên, chúng ta lại quay về vạch xuất phát.
Trở thành ảo? Phải chờ đợi lâu lắm
Khi chúng ta nói về việc thay thế chuột và bàn phím máy tính bằng AI (hay bất kỳ tiến bộ nào khác), chúng ta chỉ đơn thuần đang nói về việc thay thế chúng bằng một proxy. Và rồi lại tìm đến một sự thay thế quen thuộc. Có rất nhiều tài liệu nghiên cứu về chuột và bàn phím ảo, có từ ít nhất một thập kỷ trước, rất lâu trước khi bài báo "Transformers" mang tính đột phá được phát hành và đưa ngành công nghiệp AI lên một tầm cao mới.
Meta muốn thay thế bàn phím vật lý bằng một bàn phím vẫn còn tồn tại về mặt kỹ thuật .
Năm 2013, DexType đã phát hành một ứng dụng tận dụng phần cứng Leap Motion nhỏ bé để tạo ra trải nghiệm gõ phím ảo trên không trung. Không cần màn hình cảm ứng, hay bất kỳ máy chiếu laser cầu kỳ nào như Humane AI Pin . Leap Motion đã chết vào năm 2019, nhưng ý tưởng này vẫn còn đó. Meta được cho là công ty duy nhất có sẵn một bộ phần mềm và phần cứng thực tế, sẵn sàng cho một hình thức nhập-xuất thay thế trên máy tính, thứ mà họ gọi là tương tác giữa người và máy tính (HCI).
Công ty đã và đang nghiên cứu các thiết bị đeo cổ tay cho phép điều khiển bằng cử chỉ theo một hình thức hoàn toàn khác. Thay vì theo dõi chuyển động không gian của ngón tay và chân tay, Meta sử dụng một kỹ thuật gọi là điện cơ đồ (EMG). Kỹ thuật này chuyển đổi các tín hiệu thần kinh vận động điện được tạo ra ở cổ tay thành đầu vào kỹ thuật số để điều khiển các thiết bị. Và đúng vậy, đầu vào con trỏ và bàn phím là một phần không thể thiếu của thiết bị.
Siêu dữ liệu
Đồng thời, Meta cũng khẳng định những cử chỉ này sẽ nhanh hơn thao tác nhấn phím thông thường, bởi vì chúng ta đang nói về tín hiệu điện truyền thẳng từ bàn tay đến máy tính, thay vì chuyển động của ngón tay. "Đây là một cách nhanh hơn nhiều để thực hiện theo các hướng dẫn mà bạn đã gửi đến thiết bị khi chạm để chọn bài hát trên điện thoại, nhấp chuột hoặc gõ trên bàn phím ngày nay", Meta nói.
Ít thay thế hơn, đóng gói lại nhiều hơn
Có hai vấn đề với cách tiếp cận của Meta, dù có hay không có AI. Khái niệm về con trỏ vẫn còn rất phổ biến, và bàn phím cũng vậy, mặc dù ở định dạng kỹ thuật số. Chúng ta chỉ đang chuyển từ vật lý sang ảo. Sự thay thế mà Meta đang thúc đẩy nghe có vẻ rất viễn tưởng, đặc biệt là khi các mô hình AI Llama đa phương thức của Meta đang dần xuất hiện.
Rồi còn một vấn đề nan giải mang tính hiện sinh. Những thiết bị đeo này vẫn còn nằm trong phạm vi nghiên cứu của các phòng thí nghiệm. Và khi ra mắt, chúng sẽ không hề rẻ, ít nhất là trong vài năm đầu. Ngay cả những ứng dụng bên thứ ba đơn giản như WowMouse cũng bị ràng buộc bởi các gói đăng ký và bị hạn chế bởi các giới hạn của hệ điều hành.
Tôi không thể tưởng tượng nổi việc bỏ chiếc bàn phím rẻ tiền 100 đô la của mình để mua một thiết bị thử nghiệm cho phép nhập liệu bằng giọng nói hoặc cử chỉ, và tưởng tượng nó sẽ thay thế hoàn toàn việc nhập liệu bằng bàn phím và chuột trong quy trình làm việc hàng ngày của tôi. Quan trọng nhất, sẽ mất một thời gian trước khi các nhà phát triển áp dụng phương thức nhập liệu bằng ngôn ngữ tự nhiên vào ứng dụng của họ. Đó sẽ là một quá trình dài và kéo dài.
Còn các lựa chọn thay thế thì sao? Chúng ta đã có những ứng dụng như WowMouse , biến đồng hồ thông minh của bạn thành một trung tâm nhận dạng cử chỉ cho các chuyển động của ngón tay và lòng bàn tay. Tuy nhiên, nó chỉ đóng vai trò thay thế cho các cử chỉ con trỏ và chạm, chứ không thực sự là một trải nghiệm bàn phím hoàn chỉnh. Nhưng một lần nữa, việc cho phép các ứng dụng truy cập bàn phím của bạn là một rủi ro mà các "ông trùm" hệ điều hành sẽ phản đối. Bạn còn nhớ keylogger chứ?
Cuối cùng, chúng ta đã đến thời điểm mà khả năng đàm thoại của các mô hình AI và khả năng tương tác của chúng đang có những bước tiến vượt bậc. Tuy nhiên, chúng vẫn đòi hỏi bạn phải vượt qua vạch đích chỉ bằng một cú nhấp chuột hoặc vài lần nhấn phím, thay vì thay thế hoàn toàn chúng. Hơn nữa, chúng quá cồng kềnh khi bạn có thể nhấn phím tắt hoặc chuột thay vì đọc một chuỗi dài các lệnh thoại.
Tóm lại, AI sẽ giảm sự phụ thuộc của chúng ta vào đầu vào vật lý, nhưng sẽ không thay thế nó. Ít nhất là không phải đối với số đông.