GPT-5.4 mới của OpenAI đánh bại con người trong các bài kiểm tra ở cấp độ chuyên nghiệp - 83%

Tác giả ptkhanhduy 07/03/2026 11 phút đọc

GPT-5.4 cũng đáng tin cậy hơn, tạo ra ít lỗi hơn 18% và ít tuyên bố sai hơn 33% so với GPT-5.2, theo OpenAI.

Mô hình GPT-5.4 được hiển thị trên nền mây màu cam và xanh lam.

Điểm số 83% của GPT-5.4 cho thấy AI sánh ngang với các chuyên gia chuyên nghiệp. Các thử nghiệm trải dài trên chín ngành công nghiệp và 44 ngành nghề trong thế giới thực. Các khả năng mới cũng tăng cường mã hóa, sử dụng công cụ và điều khiển máy tính.

OpenAI đã phát hành mô hình tư duy mới của mình, GPT-5.4. Theo công ty, đây là “mô hình biên giới có khả năng và hiệu quả nhất cho công việc chuyên môn phức tạp”. Trong ChatGPT, mô hình này được gọi là GPT-5.4 Thinking. Ngoài ra còn có các bản phát hành cho API, công cụ lập trình Codex và phiên bản GPT-5.4 Pro.

Về hiệu suất tổng thể, OpenAI cho biết GPT-5.4 “ít có khả năng chứa lỗi hơn 18% và các tuyên bố riêng lẻ ít có khả năng sai hơn 33% so với GPT-5.2”, dựa trên các lời nhắc trước đây đã được người dùng đánh dấu là có lỗi thực tế.

GPT-5.4 sẽ được cung cấp thông qua API và đang được triển khai dần trên các gói trả phí của ChatGPT cũng như trong Codex.

Trước đó, OpenAI đã phát hành GPT-5.3-Codex, một phiên bản Codex có thể hỗ trợ phát triển chính nó. Sau đó, công ty tiếp tục ra mắt GPT-5.3 Instant, một phiên bản tập trung vào các cuộc trò chuyện hàng ngày và được cung cấp cho tất cả người dùng ChatGPT.

GPT-5.4 được giới thiệu như mô hình suy luận chính mới, kết hợp khả năng mã hóa mạnh của GPT-5.3-Codex với các khả năng suy luận và sử dụng công cụ nâng cao.

Kiểm tra khả năng AI trong thế giới thực

OpenAI đã giới thiệu một bài kiểm tra đánh giá AI có tên GPTval, nhằm đo lường mức độ các mô hình AI có thể thực hiện “các nhiệm vụ trong thế giới thực có giá trị kinh tế”.

Bài kiểm tra đánh giá hiệu suất trên chín ngành công nghiệp và 44 nghề nghiệp. Các ngành được chọn dựa trên những lĩnh vực đóng góp từ 5% trở lên vào tổng sản phẩm quốc nội của Hoa Kỳ.

Các lĩnh vực bao gồm:

Tài chính và bảo hiểm: đại diện dịch vụ khách hàng, nhà phân tích tài chính và đầu tư, nhà quản lý tài chính, cố vấn tài chính cá nhân, đại diện bán hàng chứng khoán và dịch vụ tài chính.
Thương mại bán lẻ: dược sĩ, giám sát nhân viên bán lẻ, quản lý tổng hợp, thám tử tư và điều tra viên.
Thương mại bán buôn: giám đốc bán hàng, nhân viên đặt hàng, đại diện bán hàng và giám sát viên bán hàng.
Bất động sản và cho thuê: quản lý bất động sản, đại lý bán bất động sản, môi giới bất động sản và nhân viên cho thuê.
Chính phủ: nhân viên tuân thủ, quản lý dịch vụ hành chính, nhân viên xã hội và giám sát viên lực lượng thực thi pháp luật.
Sản xuất: kỹ sư cơ khí, kỹ sư công nghiệp, chuyên viên mua hàng và giám sát viên sản xuất.
Dịch vụ chuyên nghiệp, khoa học và kỹ thuật: nhà phát triển phần mềm, luật sư, kế toán, quản lý hệ thống thông tin và chuyên gia quản lý dự án.
Chăm sóc sức khỏe: y tá, quản lý dịch vụ y tế, thư ký y tế và trợ lý hành chính.
Thông tin và truyền thông: kỹ thuật viên âm thanh và video, nhà sản xuất, nhà báo, biên tập viên và biên tập viên phim.

OpenAI đã hợp tác với các chuyên gia trong từng ngành nghề để xây dựng bộ nhiệm vụ phản ánh công việc thực tế hàng ngày. Các nhiệm vụ được đánh giá bởi các chuyên gia con người, và những người chấm điểm không biết kết quả đến từ AI hay từ con người.

Ngoài ra, OpenAI cũng xây dựng một hệ thống chấm điểm tự động dựa trên kết quả đánh giá của các chuyên gia, giúp tăng tốc quá trình đánh giá các mô hình AI.

83% thời gian

Tốc độ cải thiện của các mô hình GPT rất nhanh. GPT-5.1 được phát hành với điểm GPTval khoảng 38,8%. Một tháng sau, GPT-5.2 đạt 70,9%.

Đến GPT-5.4, mô hình có thể sánh ngang hoặc vượt qua các chuyên gia con người 83% thời gian trong các nhiệm vụ chuyên môn.

Điều này có nghĩa là khi cùng một nhiệm vụ được giao cho một chuyên gia có kinh nghiệm và GPT-5.4, AI thường đạt kết quả tương đương hoặc tốt hơn theo đánh giá của người chấm điểm.

Kết quả này không chỉ giới hạn trong lĩnh vực lập trình mà trải rộng trên nhiều ngành công nghiệp và nghề nghiệp có giá trị kinh tế cao.

Một số chuyên gia trong lĩnh vực tài chính cho biết GPT-5.4 cho thấy mức cải thiện đáng kể trong các nhiệm vụ phân tích và mô hình tài chính, nâng cao độ chính xác và khả năng tự động hóa các quy trình phân tích.

Hiệu suất như vậy có thể dẫn đến hai hướng phát triển. Một mặt, AI có thể giúp các chuyên gia tăng năng suất và hoàn thành nhiều công việc hơn. Mặt khác, nó cũng làm dấy lên lo ngại rằng AI có thể thay thế một số công việc có kỹ năng cao trong tương lai.

Các khả năng mới

Ngoài hiệu suất tổng thể, GPT-5.4 còn cải thiện nhiều khả năng cốt lõi:

Sử dụng công cụ: cải thiện khả năng lựa chọn và sử dụng các công cụ bên ngoài để hoàn thành quy trình làm việc nhiều bước.
Thị giác máy tính: hiểu hình ảnh và tài liệu phức tạp tốt hơn.
Khả năng sử dụng máy tính: có thể tương tác với hệ thống phần mềm thông qua ảnh chụp màn hình, bàn phím và chuột để tự động hóa các quy trình làm việc.
Mã hóa: kết hợp khả năng lập trình của GPT-5.3-Codex với suy luận và sử dụng công cụ tốt hơn, giúp lập trình viên xây dựng và gỡ lỗi phần mềm hiệu quả hơn.

GPT-5.4 dự kiến sẽ sớm xuất hiện rộng rãi trong giao diện ChatGPT cũng như các công cụ dành cho nhà phát triển.

Tác giả ptkhanhduy Admin

Theo dõi:

Bài viết trước

Chán Microsoft và Google? Bộ ứng dụng văn phòng châu Âu mới này là một giải pháp thay thế mã nguồn mở, riêng tư

Bài viết tiếp theo

RAM 8GB có thực sự đủ cho máy Mac vào năm 2026 không? Câu trả lời ngắn gọn: Có

Viết bình luận

Thêm bình luận

GPT-5.4 mới của OpenAI đánh bại con người trong các bài kiểm tra ở cấp độ chuyên nghiệp - 83%

Kiểm tra khả năng AI trong thế giới thực

83% thời gian

Các khả năng mới

Chán Microsoft và Google? Bộ ứng dụng văn phòng châu Âu mới này là một giải pháp thay thế mã nguồn mở, riêng tư

RAM 8GB có thực sự đủ cho máy Mac vào năm 2026 không? Câu trả lời ngắn gọn: Có

Bài viết liên quan

Chán Microsoft và Google? Bộ ứng dụng văn phòng châu Âu mới này là một giải pháp thay thế mã nguồn mở, riêng tư

90% dự án AI thất bại – đây là 3 cách để dự án của bạn không rơi vào số đó

Microsoft, Google, Amazon nói rằng Claude của Anthropic vẫn khả dụng cho khách hàng không liên quan quốc phòng

RAM 8GB có thực sự đủ cho máy Mac vào năm 2026 không? Câu trả lời ngắn gọn: Có

Samsung xác nhận khả năng của kính thông minh để cạnh tranh với Meta Ray-Bans - những gì sắp tới

Trưởng nhóm robot OpenAI Caitlin Kalinowski từ chức để đáp lại thỏa thuận của Lầu Năm Góc