Mặc dù có nhiều lời quảng cáo thổi phồng về việc các trợ lý ảo này là cộng sự, nhưng theo kinh nghiệm của chúng tôi , chúng hoạt động hiệu quả nhất nếu bạn coi chúng như những công cụ khuếch đại các kỹ năng hiện có, chứ không phải là những cộng sự tự động như ngôn ngữ tiếp thị ám chỉ. Chúng có thể tạo ra các bản nháp ấn tượng một cách nhanh chóng nhưng vẫn cần sự điều chỉnh liên tục của con người.
Việc ra mắt Frontier diễn ra chỉ ba ngày sau khi OpenAI phát hành ứng dụng máy tính để bàn macOS mới cho Codex, công cụ lập trình AI của họ, mà các giám đốc điều hành của OpenAI mô tả là "trung tâm điều khiển cho các tác nhân". Ứng dụng Codex cho phép các nhà phát triển chạy nhiều luồng tác nhân song song, mỗi luồng hoạt động trên một bản sao mã nguồn riêng biệt thông qua cây làm việc Git.
Hôm thứ Năm, OpenAI cũng đã phát hành GPT-5.3-Codex , một mô hình AI mới hỗ trợ ứng dụng Codex. OpenAI tuyên bố rằng nhóm Codex đã sử dụng các phiên bản đầu tiên của GPT-5.3-Codex để gỡ lỗi quá trình huấn luyện của mô hình, quản lý việc triển khai và chẩn đoán kết quả thử nghiệm, tương tự như những gì OpenAI đã nói với Ars Technica trong một cuộc phỏng vấn hồi tháng 12.
“Nhóm của chúng tôi vô cùng ấn tượng về khả năng thúc đẩy quá trình phát triển của Codex,” công ty viết. Trên Terminal-Bench 2.0, chuẩn đánh giá mã hóa tác nhân, GPT-5.3-Codex đạt 77,3%, vượt trội hơn Opus 4.6 vừa được Anthropic phát hành khoảng 12 điểm phần trăm.
Điểm chung của tất cả các sản phẩm này là sự thay đổi vai trò của người dùng. Thay vì chỉ đơn thuần gõ lệnh và chờ phản hồi, nhà phát triển hoặc người làm việc trí thức trở nên giống như một người giám sát, phân công nhiệm vụ, theo dõi tiến độ và can thiệp khi người dùng cần hướng dẫn.
Trong viễn cảnh này, các nhà phát triển và chuyên gia tri thức sẽ trở thành những người quản lý trung gian của AI. Nghĩa là, họ không tự viết mã hay thực hiện phân tích, mà chỉ phân công nhiệm vụ, xem xét kết quả và hy vọng các tác nhân cấp dưới không âm thầm gây ra lỗi. Liệu điều đó có thành hiện thực hay không (hoặc liệu đó có phải là một ý tưởng hay) vẫn còn đang được tranh luận rộng rãi.
Một mẫu xe mới dưới nắp ca-pô của Claude.
Opus 4.6 là bản cập nhật đáng kể cho mô hình chủ lực của Anthropic. Nó kế nhiệm Claude Opus 4.5 , được Anthropic phát hành vào tháng 11. Lần đầu tiên trong dòng mô hình Opus, nó hỗ trợ cửa sổ ngữ cảnh lên đến 1 triệu token (trong phiên bản beta), có nghĩa là nó có thể xử lý các khối văn bản hoặc mã lớn hơn nhiều trong một phiên duy nhất.
Theo Anthropic, Opus 4.6 vượt trội hơn GPT-5.2 của OpenAI (một mẫu cũ hơn so với mẫu được phát hành hôm nay) và Gemini 3 Pro của Google trên nhiều bài kiểm tra, bao gồm Terminal-Bench 2.0 (một bài kiểm tra lập trình tác nhân), Humanity's Last Exam (một bài kiểm tra suy luận đa ngành) và BrowseComp (một bài kiểm tra tìm kiếm thông tin khó tìm trên mạng).
Tuy nhiên, cần lưu ý rằng OpenAI GPT-5.3-Codex, được phát hành cùng ngày, dường như đã giành lại vị trí dẫn đầu trên Terminal-Bench. Trên ARC AGI 2 , một bài kiểm tra nhằm đánh giá khả năng giải quyết các vấn đề dễ đối với con người nhưng khó đối với các mô hình AI, Opus 4.6 đạt 68,8%, so với 37,6% của Opus 4.5, 54,2% của GPT-5.2 và 45,1% của Gemini 3 Pro.
Như thường lệ, hãy xem xét các tiêu chuẩn đánh giá AI một cách thận trọng, vì việc đo lường khách quan khả năng của mô hình AI là một lĩnh vực tương đối mới và chưa được hoàn thiện.
Anthropic cũng cho biết rằng trên một bài kiểm tra đánh giá khả năng truy xuất ngữ cảnh dài có tên MRCR v2 , Opus 4.6 đạt 76% trên biến thể 1 triệu token, so với 18,5% của mô hình Sonnet 4.5. Khoảng cách này rất quan trọng đối với trường hợp sử dụng của các nhóm tác nhân, vì các tác nhân hoạt động trên các cơ sở mã lớn cần theo dõi thông tin trên hàng trăm nghìn token mà không bị mất mạch thông tin.
Giá API vẫn giữ nguyên như Opus 4.5 ở mức 5 đô la cho mỗi triệu token đầu vào và 25 đô la cho mỗi triệu token đầu ra, với mức phí cao hơn là 10 đô la/37,50 đô la cho các yêu cầu vượt quá 200.000 token. Opus 4.6 hiện có sẵn trên claude.ai, API của Claude và tất cả các nền tảng đám mây lớn.
