Lại một ngày nữa, lại thêm một mô hình AI mới của Google. Google thực sự đã liên tục cho ra mắt các công cụ AI mới trong thời gian gần đây, sau khi phát hành Gemini 3 vào tháng 11. Hôm nay, họ nâng cấp mô hình chủ lực lên phiên bản 3.1. Gemini 3.1 Pro mới đang được triển khai (ở dạng bản xem trước) cho các nhà phát triển và người dùng bắt đầu từ hôm nay với lời hứa về khả năng giải quyết vấn đề và suy luận tốt hơn.

Tuần trước, Google đã công bố những cải tiến cho công cụ Deep Think của mình, và dường như "trí tuệ cốt lõi" đằng sau bản cập nhật đó là Gemini 3.1 Pro. Như thường lệ, thông báo về mô hình mới nhất của Google đi kèm với rất nhiều điểm chuẩn cho thấy hầu hết các cải tiến đều khá khiêm tốn. Trong bài kiểm tra Humanity's Last Exam nổi tiếng, kiểm tra kiến ​​thức chuyên sâu trong một lĩnh vực cụ thể, Gemini 3.1 Pro đã đạt điểm số kỷ lục 44,4%. Gemini 3 Pro đạt 37,5%, trong khi GPT 5.2 của OpenAI đạt 34,5%.

 

 

Điểm chuẩn Gemini 3.1 Pro

Google cũng đánh giá cao sự cải thiện của mô hình trong ARC-AGI-2, một bài toán logic mới lạ mà không thể huấn luyện trực tiếp vào trí tuệ nhân tạo. Gemini 3 đạt điểm số thấp hơn một chút trong bài kiểm tra này, chỉ đạt 31,1% so với điểm số từ 50 đến 60% của các mô hình cạnh tranh. Gemini 3.1 Pro đạt điểm số cao hơn gấp đôi so với Google, lên tới 77,1%.

Google thường tự hào khi ra mắt các mẫu chip mới rằng chúng đã nhanh chóng đứng đầu bảng xếp hạng Arena (trước đây là LM Arena), nhưng lần này thì không phải vậy. Về nhận diện văn bản, Claude Opus 4.6 nhỉnh hơn Gemini mới bốn điểm, đạt 1504 điểm. Về nhận diện mã, Opus 4.6, Opus 4.5 và GPT 5.2 High đều vượt trội hơn Gemini 3.1 Pro một chút. Tuy nhiên, cần lưu ý rằng bảng xếp hạng Arena được tính dựa trên cảm nhận của người dùng. Người dùng bình chọn cho kết quả mà họ thích nhất, điều này có thể ưu tiên những kết quả trông có vẻ chính xác bất kể chúng có đúng hay không.