Bất Ngờ: Claude Opus 4.1 Đánh Bại GPT-5, Gemini và Grok Trong Các Nhiệm Vụ Công Việc Thực Tế (Nghiên Cứu của OpenAI)

Tác giả hoaithuong 30/09/2025 7 phút đọc

Claude Xuất Sắc Đánh Bại GPT-5, Gemini và Grok Trong Nhiệm Vụ Công Việc Thực Tế

 

Một nghiên cứu mới gây ngạc nhiên từ chính OpenAI – công ty tạo ra ChatGPT – cho thấy mô hình Claude Opus 4.1 của đối thủ Anthropic đã vượt qua cả GPT-5 cùng với Gemini và Grok trong các nhiệm vụ công việc đời thực.

Is-Claude-Opus-4

Hệ Thống Đánh Giá Mới: GDPval

Để khắc phục hạn chế của các tiêu chuẩn AI truyền thống (vốn thường không phản ánh cách mọi người thực sự sử dụng AI tại nơi làm việc), OpenAI đã giới thiệu hệ thống đánh giá mới mang tên GDPval.

  • Mục tiêu: GDPval đo lường hiệu suất của các mô hình AI trong các nhiệm vụ công việc thực tế (real-world work tasks) so với các chuyên gia con người trong 44 ngành nghề khác nhau, từ nhà phát triển phần mềm, luật sư đến y tá và kỹ sư.

  • Tên gọi: Tên GDPval được lấy cảm hứng từ Tổng sản phẩm quốc nội (GDP) như một chỉ số kinh tế quan trọng.

GPT-5 thắng lớn ở mảng quan trọng nhất, giúp OpenAI bắt kịp Anthropic

Kết Quả Bất Ngờ: Claude Lên Ngôi

Kết quả từ nghiên cứu của OpenAI cho thấy một bất ngờ lớn:

Mô hình AITỷ lệ Thắng GDPval (So với Chuyên gia Con người)Vị trí
Claude Opus 4.1 (Anthropic)47.6Dẫn đầu
ChatGPT-5 high (OpenAI)38.8Hạng 2
ChatGPT o3 high (OpenAI)34.1Hạng 3
Grok 4 (xAI)Cao hơn ChatGPT-4oHạng 4
Gemini 2.5 Pro (Google)Cao hơn ChatGPT-4oHạng 5
ChatGPT-4o (OpenAI)12.4Cuối cùng
  • Thống trị ngành: Claude Opus 4.1 đạt hiệu suất cao nhất trên tám trong số chín lĩnh vực được thử nghiệm, bao gồm chính phủ, chăm sóc sức khỏe và hỗ trợ xã hội.

  • Ví dụ nhiệm vụ: Các nhiệm vụ thử nghiệm bao gồm soạn email phản hồi cho khách hàng không hài lòng, tối ưu hóa bố cục bảng cho hội chợ nhà cung cấp, và kiểm tra tính nhất quán về giá trong đơn đặt hàng.

Claude AI là gì? Cách đăng ký TK và ứng dụng vào công việc

Tính Minh Bạch Triệt Để của OpenAI

Việc OpenAI công bố một nghiên cứu cho thấy đối thủ cạnh tranh dẫn đầu có vẻ là một động thái gây ngạc nhiên, nhưng nó hoàn toàn phù hợp với triết lý của công ty:

"Sứ mệnh của chúng tôi là đảm bảo trí tuệ nhân tạo tổng quát (AGI) mang lại lợi ích cho toàn nhân loại. Là một phần của sứ mệnh đó, chúng tôi muốn truyền đạt một cách minh bạch về tiến trình các mô hình AI có thể giúp đỡ mọi người trong thế giới thực như thế nào," tuyên bố từ OpenAI cho biết.

OpenAI là gì? Tất tần tật về OpenAI, công ty đứng sau ChatGPT

Kết quả nghiên cứu, được thực hiện bởi nhóm Nghiên cứu Kinh tế của OpenAI và nhà kinh tế học David Deming của Harvard, cho thấy hiệu suất thực tế của AI tại nơi làm việc khác xa so với các điểm chuẩn thông thường. Điều này có thể thúc đẩy OpenAI tập trung hơn vào việc cải thiện hiệu suất công việc thực tế, thay vì chỉ tập trung vào các tính năng hoặc chỉ số lý thuyết.

Bạn nghĩ liệu thành công này của Claude có khiến Anthropic trở thành lựa chọn hàng đầu cho các tác vụ doanh nghiệp trong tương lai không?

Tác giả hoaithuong Admin
Bài viết trước Wacom One

Wacom One

Bài viết tiếp theo

Cách Tắt Hiệu Ứng Trong Suốt Trên Windows 10 Nhanh Chóng Và Hiệu Quả

Cách Tắt Hiệu Ứng Trong Suốt Trên Windows 10 Nhanh Chóng Và Hiệu Quả
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899