Tôi đã thử nghiệm avatar hiểu biết thế giới của Gemini Live. Thật kinh ngạc.

Tác giả bichhien 14/10/2025 23 phút đọc

Tôi đã thử nghiệm avatar hiểu biết thế giới của Gemini Live. Thật kinh ngạc. 

Quét nhãn dán bằng Gemini Live với camera và chia sẻ màn hình.Nadeem Sarwar / Xu hướng số. 

Nghe một AI nói chuyện với giọng điệu thân thiện đến rợn người và bảo tôi dọn dẹp đống bừa bộn trên bàn làm việc, tôi cũng thấy hơi ngại. Tôi cũng hơi tự hào về điều đó, nhưng chắc đã đến lúc xếp gọn đống đồ đạc ngổn ngang và dọn dẹp mớ dây nhợ lộn xộn rồi.  

Chị gái tôi cũng đồng ý. Nhưng việc AI "nhìn thấy" bàn ăn của tôi, nhận ra sự bừa bộn và đưa ra lời khuyên cho người nội trợ mới là điều quan trọng hơn. Chatbot AI Gemini của Google giờ đây có thể làm được điều đó. Và còn nhiều hơn thế nữa.  

Bí quyết ở đây chính là bản cập nhật tính năng gần đây mang tên  Dự án Astra  . Dự án này đã được phát triển trong nhiều năm và  cuối cùng đã chính thức ra mắt vào đầu tháng này  . Ý tưởng bao trùm là mang đến một AI toàn diện, nghe thấy tất cả và cực kỳ thông minh trên điện thoại của bạn.  

Google đặt tên cho những siêu năng lực này là một cái tên khá nhàm chán:  Gemini Live  với camera và chia sẻ màn hình. Được phát triển tại bộ phận DeepMind của công ty, công ty bắt đầu phát triển nó với mục tiêu là một "trợ lý AI toàn diện". Thật đáng tiếc khi cái tên cuối cùng lại không mang nhiều tham vọng như vậy.  

Màn hình chính của Gemini Live với camera và tính năng chia sẻ màn hình.Nadeem Sarwar / Xu hướng số. 

Hãy bắt đầu với vấn đề truy cập. Tính năng này hiện đã có sẵn cho người dùng  Pixel 9  và  Galaxy S25  . Tuy nhiên, nếu bạn sở hữu điện thoại Android có đăng ký Gemini Advanced, bạn vẫn có thể truy cập bộ công cụ mới.  

Tiện thể, vậy là mất 20 đô la mỗi tháng. Tôi đã thử nghiệm trên hai chiếc điện thoại nói trên và giờ đã có thể cài đặt trên  OnePlus 13  của mình . Tuyệt vời nhất là gì? Bạn không cần phải trải qua bất kỳ thủ tục kỹ thuật nào để truy cập nó.  

Chỉ cần kết hợp nút nguồn/âm lượng, hoặc vuốt góc màn hình để gọi Gemini là bạn đã có thể truy cập tính năng camera và chia sẻ màn hình mới ngay trên mọi góc của hệ điều hành. 

Hiểu về thế giới xung quanh bạn  

Tôi bắt đầu bằng cách hướng máy ảnh vào một bức tranh và hỏi về nó. Gemini Live đã có thể nhận diện chính xác đó là một bức tranh theo phong cách Madhubani, giải mã cách sử dụng màu sắc táo bạo và cách miêu tả động vật.  

Nhận dạng bức tranh bằng Gemini Live với camera và chia sẻ màn hình.Nadeem Sarwar / Xu hướng số. 

Sau đó, nó tiếp tục cho tôi một bài học lịch sử ngắn gọn và những biến thể đã phát triển qua nhiều năm. Thông tin rất chính xác, đến từng chi tiết nhỏ nhất. May mắn thay, bạn cũng có thể chọn trao đổi qua lại bằng văn bản với Gemini, nếu bạn đang ở nơi mà việc trò chuyện bằng giọng nói có thể gây khó xử.  

Điều tôi thích nhất ở camera và avatar chia sẻ màn hình mới của Gemini Live là nó không quá ồn ào. Bạn có thể ngắt quãng bất cứ lúc nào, điều này càng làm tăng thêm tính "tự nhiên" của các cuộc trò chuyện.  

Có liên quan:   

ChatGPT muốn chơi bác sĩ với chế độ đặc biệt, nhưng tôi sẽ bỏ qua 

Tôi đã thử Gemini trong nhiều tình huống khác nhau. Tôi chưa chuẩn bị cho điều đó. 

Câu trả lời mà nó cung cấp thường ngắn gọn, như thể nó muốn cho bạn cơ hội (hoặc thậm chí là gợi ý) để hỏi thêm một câu hỏi thay vì đưa ra một câu trả lời dài dòng. Nó vượt trội trong nhiều chủ đề và tình huống trực quan, nhưng vẫn có một vài điểm yếu. 

Trò chuyện qua tin nhắn bằng Gemini Live với camera và chia sẻ màn hình.Nadeem Sarwar / Xu hướng số. 

Hiện tại, Gemini chưa thể sử dụng Google Lens, nghĩa là nó không thể so sánh hình ảnh hiển thị trên màn hình điện thoại của bạn với kết quả trùng khớp trên web. Hơn nữa, Gemini không thể truy cập thông tin theo thời gian thực nếu bạn yêu cầu Gemini tra cứu những diễn biến mới nhất về một chủ đề hoặc nhân vật nào đó. 

Tôi đã hỏi nó về các loài thực vật, danh sách nhà hàng, thu thập dữ liệu từ bảng thông báo, và hiểu rõ đơn thuốc của tôi cho cơn cảm cúm gần đây. Gemini hoạt động khá tốt, hơn hẳn những chatbot AI tôi từng thấy từ trước đến nay.  

Mở khóa ngân hàng kiến ​​thức 

Tiếp theo, tôi thúc đẩy Gemini giải thích các tài liệu học thuật phức tạp. Tôi đặt một cuốn sách về Học máy vào khung hình camera. Gemini Live không chỉ nhận dạng được cuốn sách mà còn cung cấp cho tôi cái nhìn tổng quan về nội dung và các chủ đề cốt lõi của cuốn sách.  

Hiểu tiếng Hindi với Gemini Live thông qua tính năng chia sẻ camera và màn hình.Nadeem Sarwar / Xu hướng số. 

Thật kỳ lạ, tôi bắt đầu lật từng trang và dừng lại ở danh sách chương. AI nhận ra tiến trình, ngừng nói và hỏi tôi có hứng thú với chương nào cụ thể không khi tôi đang xem danh sách chủ đề.  

Lúc này tôi thực sự ngạc nhiên. 

Tôi đã yêu cầu AI phân tích một số chủ đề phức tạp và nó đã hoàn thành xuất sắc nhiệm vụ, thậm chí còn vượt ra ngoài phạm vi tài liệu trên trang và trích xuất thông tin từ kho kiến ​​thức rộng lớn của nó.  

Ví dụ, khi tôi hỏi về nội dung trang giới thiệu của cuốn tiểu thuyết kinh điển Tamas của Bhisham Sahni, AI đã nhận diện chính xác việc đề cập đến Giải thưởng Sahitya Akademi. Sau đó, nó tiếp tục đề cập đến những chi tiết thậm chí không được liệt kê trên trang, chẳng hạn như năm tác phẩm giành được giải thưởng văn học danh giá này và nội dung của cuốn sách.  

Ngược lại, phần đọc tiếng Hindi của Gemini Live rất tệ. Không chỉ giọng đọc dở, mà còn vì Gemini cứ lặp đi lặp lại toàn là tiếng lóng và chẳng có từ nào. Khi đọc tiếng Urdu, tiếng Ba Tư và tiếng Ả Rập, nó làm tốt hơn đáng kể, nhưng thường lẫn lộn các từ trong những dòng ngẫu nhiên.  

Đọc tiếng Urdu bằng Gemini Live với camera và chia sẻ màn hình.Nadeem Sarwar / Xu hướng số. 

 Lần đầu tiên tôi thử nghiệm với thơ Urdu, nó không chỉ nhận dạng được văn bản Urdu mà còn tóm tắt chính xác bài thơ. Thử thách lớn nhất, một lần nữa, lại là phần tường thuật. Nghe một phiên bản Anh hóa của Urdu thực sự làm tôi đau tai.  

Xuất sắc ở những điểm bất ngờ  

AI là một công cụ giải quyết vấn đề tuyệt vời, và có rất nhiều tiêu chuẩn để chứng minh điều đó. Tôi đã thử nghiệm nó với các bài toán vật lý liên quan đến nhiệt động lực học, phương trình điện hóa và các bài toán thống kê được ghi trong một cuốn sổ tay viết tay. Gemini Live đã làm rất tốt những nhiệm vụ này.  

Nó thậm chí còn xuất sắc trong các công việc sáng tạo. Chị gái tôi, một nhà thiết kế thời trang, đã trình bày một trong những bản phác thảo của mình trong chế độ xem camera và xin phản hồi cũng như cải tiến. Gemini Live bắt đầu bằng cách khen ngợi thiết kế, so sánh với tư tưởng thiết kế của một số thương hiệu thời trang và đưa ra một số khuyến nghị.  

Quét sách bằng Gemini Live với camera và chia sẻ màn hình.Nadeem Sarwar / Xu hướng số. 

Khi được hỏi thêm, AI còn tư vấn cho chị tôi những công cụ tốt nhất để chuyển đổi các bản phác thảo vẽ tay thành các khái niệm kỹ thuật số. Nó tiếp nối những lời chỉ dẫn đó bằng cách cung cấp thông tin hữu ích về bộ phần mềm và nơi có thể tìm thấy tài liệu học tập.   

Khi tôi đặt một vài cục pin Duracell vào chế độ xem của camera, nó không chỉ nhận dạng chính xác mà còn cho tôi biết các nền tảng thương mại điện tử địa phương có thể giao chúng cho tôi trong vòng vài phút. 

Các dịch vụ này - có tên Blinkit và Swiggy Instamart - chỉ có sẵn ở Ấn Độ và chủ yếu dành cho khu vực thành thị. Ngay cả trong một căn phòng thiếu sáng, nó vẫn có thể nhận dạng được một cặp tai nghe có dây ngay lần thử đầu tiên. 

Điểm mạnh của nó là nhận thức tình hình.  

So với cuộc trò chuyện Gemini thông thường hoặc những gì bạn tìm thấy trong  phần tổng quan về AI  của Google Tìm kiếm, các cuộc trò chuyện Gemini Live có cách tiếp cận thận trọng hơn trong việc cung cấp kiến ​​thức, đặc biệt là nếu kiến ​​thức đó mang tính nhạy cảm. Tôi nhận thấy các chủ đề như khuyến nghị thực phẩm và điều trị y tế được xử lý với cách tiếp cận ngày càng thận trọng, và người dùng thường được thúc đẩy tìm kiếm nguồn chuyên gia phù hợp. 

Một vài cạm bẫy quen thuộc  

Quét nhãn dán bằng Gemini Live với camera và chia sẻ màn hình.Nadeem Sarwar / Xu hướng số. 

Điểm nhấn lớn nhất của tôi là màn lột xác "Dự án Astra" của Gemini vô cùng ấn tượng. Nó hé lộ tương lai mà điện thoại thông minh có thể đạt được. Với một vài cải tiến, tích hợp và quy trình làm việc đa ứng dụng, nó có thể khiến Google Tìm kiếm trông như một di tích lỗi thời. Tuy nhiên, hiện tại, vẫn còn một vài thiếu sót rõ ràng. 

Trong một vài trường hợp, tôi nhận thấy hệ thống bộ nhớ bị trục trặc. Khi được yêu cầu nhận dạng một vòng đeo tay thể dục trong chế độ xem camera, AI nhận dạng chính xác đó là  Samsung Galaxy Fit 3.  Nhưng khi tôi hỏi tiếp một câu hỏi khác, nó lại nhầm lẫn đó là vòng đeo tay thể dục của Huawei.  

Nó cũng có thể nói dối trắng trợn. Và tôi có thể nói là khá tự tin. Ví dụ, khi tôi yêu cầu nó tóm tắt bài đánh giá của tôi về thiết bị đeo, AI trả lời rằng Digital Trends chưa đánh giá nó. Thực tế, bài viết đã được xuất bản một tuần trước.  

Tiếp theo, tôi yêu cầu nó xem qua một vài bài viết trên trang tác giả của tôi sau khi tôi bật tính năng chia sẻ màn hình. Gemini đã làm khá tốt việc giải thích các câu chuyện, nhưng đôi khi vẫn gặp khó khăn trong việc hiểu ngữ cảnh. Ví dụ, nó đã đề cập sai rằng chỉ Intel và AMD mới có thể tạo ra các NPU đủ điều kiện nhận  huy hiệu Copilot+  .   

Cảnh báo về Gemini Live với tính năng chia sẻ camera và màn hình.Nadeem Sarwar / Xu hướng số. 

Mặt khác, bài viết đề cập rõ ràng rằng Qualcomm là công ty đầu tiên đáp ứng được tiêu chí đó, vượt xa các đối thủ cạnh tranh. Và chỉ đến cuối năm ngoái, AMD và Intel mới có thể nâng cấp và đáp ứng được tiêu chuẩn chip AI đó với danh mục bộ xử lý mới.  

Giữa chừng cuộc trò chuyện về một bài viết, nó lại gặp vấn đề về bộ nhớ. Thay vì tóm tắt câu chuyện đang được thảo luận, nó lại quay lại nói về bài viết đầu tiên mà nó thấy qua chia sẻ màn hình. Khi tôi ngắt lời nó giữa chừng, Gemini đã sửa lỗi.  

Một vấn đề khác tôi nhận thấy với phần tường thuật bằng ngôn ngữ không phải tiếng Anh là Gemini Live thay đổi giọng nói và nhịp độ một cách ngẫu nhiên giữa chừng. Điều này khá khó chịu, và cách phát âm hoàn toàn máy móc, khác xa với kỹ năng giao tiếp tiếng Anh như người thật của nó.  

Đọc một đoạn văn với Gemini Live bằng cách chia sẻ camera và màn hình.Nadeem Sarwar / Xu hướng số. 

Những khó khăn về thị giác máy cũng thể hiện rõ khi so sánh với các phông chữ kiểu cách. Trong một vài trường hợp, AI tự tin đưa ra thông tin sai, và khi được yêu cầu sửa lỗi, nó lại tỏ ra không thể tìm thấy thông tin mới nhất về chủ đề đó. Những trường hợp như vậy rất hiếm, nhưng lỗi của Gemini thì vẫn còn đó.  

Tóm lại, tôi nghĩ Gemini Live với camera và chia sẻ màn hình là một trong những bước tiến lớn nhất mà AI đã đạt được cho đến nay. Đây là một trong những ứng dụng AI tạo sinh mang lại nhiều lợi ích thiết thực nhất từ ​​trước đến nay. Tất cả những gì nó cần là một chút đa dạng và một giải pháp cho hội chứng "kẻ nói dối tự tin" của nó.  

Mọi thứ chắc chắn đang đi đúng hướng, và đúng hướng một cách đáng kinh ngạc, nhưng vẫn còn một vài cột mốc quan trọng nữa mới có thể trở thành người bạn đồng hành AI hoàn hảo trong những giấc mơ công nghệ tương lai. 

Tác giả bichhien Admin
Bài viết trước Google Meet giờ đây có thể trang điểm cho bạn nhanh hơn cả khi bạn tìm thấy thỏi son của mình

Google Meet giờ đây có thể trang điểm cho bạn nhanh hơn cả khi bạn tìm thấy thỏi son của mình

Bài viết tiếp theo

Bạn Không Nên Mua Pin Dự Phòng MagSafe Chính Hãng Apple Cho iPhone Air

Bạn Không Nên Mua Pin Dự Phòng MagSafe Chính Hãng Apple Cho iPhone Air
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899