Các công ty trí tuệ nhân tạo muốn bạn ngừng trò chuyện với bot và bắt đầu quản lý chúng.

Tác giả dinhtri 06/02/2026 20 phút đọc

Claude Opus 4.6 và OpenAI Frontier đề xuất một tương lai về việc giám sát các tác nhân AI.

Mặc dù có nhiều lời quảng cáo thổi phồng về việc các trợ lý ảo này là cộng sự, nhưng theo kinh nghiệm của chúng tôi , chúng hoạt động hiệu quả nhất nếu bạn coi chúng như những công cụ khuếch đại các kỹ năng hiện có, chứ không phải là những cộng sự tự động như ngôn ngữ tiếp thị ám chỉ. Chúng có thể tạo ra các bản nháp ấn tượng một cách nhanh chóng nhưng vẫn cần sự điều chỉnh liên tục của con người.

Việc ra mắt Frontier diễn ra chỉ ba ngày sau khi OpenAI phát hành ứng dụng máy tính để bàn macOS mới cho Codex, công cụ lập trình AI của họ, mà các giám đốc điều hành của OpenAI mô tả là "trung tâm điều khiển cho các tác nhân". Ứng dụng Codex cho phép các nhà phát triển chạy nhiều luồng tác nhân song song, mỗi luồng hoạt động trên một bản sao mã nguồn riêng biệt thông qua cây làm việc Git.

Hôm thứ Năm, OpenAI cũng đã phát hành GPT-5.3-Codex , một mô hình AI mới hỗ trợ ứng dụng Codex. OpenAI tuyên bố rằng nhóm Codex đã sử dụng các phiên bản đầu tiên của GPT-5.3-Codex để gỡ lỗi quá trình huấn luyện của mô hình, quản lý việc triển khai và chẩn đoán kết quả thử nghiệm, tương tự như những gì OpenAI đã nói với Ars Technica trong một cuộc phỏng vấn hồi tháng 12.

“Nhóm của chúng tôi vô cùng ấn tượng về khả năng thúc đẩy quá trình phát triển của Codex,” công ty viết. Trên Terminal-Bench 2.0, chuẩn đánh giá mã hóa tác nhân, GPT-5.3-Codex đạt 77,3%, vượt trội hơn Opus 4.6 vừa được Anthropic phát hành khoảng 12 điểm phần trăm.

Điểm chung của tất cả các sản phẩm này là sự thay đổi vai trò của người dùng. Thay vì chỉ đơn thuần gõ lệnh và chờ phản hồi, nhà phát triển hoặc người làm việc trí thức trở nên giống như một người giám sát, phân công nhiệm vụ, theo dõi tiến độ và can thiệp khi người dùng cần hướng dẫn.

Trong viễn cảnh này, các nhà phát triển và chuyên gia tri thức sẽ trở thành những người quản lý trung gian của AI. Nghĩa là, họ không tự viết mã hay thực hiện phân tích, mà chỉ phân công nhiệm vụ, xem xét kết quả và hy vọng các tác nhân cấp dưới không âm thầm gây ra lỗi. Liệu điều đó có thành hiện thực hay không (hoặc liệu đó có phải là một ý tưởng hay) vẫn còn đang được tranh luận rộng rãi.

Một mẫu xe mới dưới nắp ca-pô của Claude.

Opus 4.6 là bản cập nhật đáng kể cho mô hình chủ lực của Anthropic. Nó kế nhiệm Claude Opus 4.5 , được Anthropic phát hành vào tháng 11. Lần đầu tiên trong dòng mô hình Opus, nó hỗ trợ cửa sổ ngữ cảnh lên đến 1 triệu token (trong phiên bản beta), có nghĩa là nó có thể xử lý các khối văn bản hoặc mã lớn hơn nhiều trong một phiên duy nhất.

Theo Anthropic, Opus 4.6 vượt trội hơn GPT-5.2 của OpenAI (một mẫu cũ hơn so với mẫu được phát hành hôm nay) và Gemini 3 Pro của Google trên nhiều bài kiểm tra, bao gồm Terminal-Bench 2.0 (một bài kiểm tra lập trình tác nhân), Humanity's Last Exam (một bài kiểm tra suy luận đa ngành) và BrowseComp (một bài kiểm tra tìm kiếm thông tin khó tìm trên mạng).

Tuy nhiên, cần lưu ý rằng OpenAI GPT-5.3-Codex, được phát hành cùng ngày, dường như đã giành lại vị trí dẫn đầu trên Terminal-Bench. Trên ARC AGI 2 , một bài kiểm tra nhằm đánh giá khả năng giải quyết các vấn đề dễ đối với con người nhưng khó đối với các mô hình AI, Opus 4.6 đạt 68,8%, so với 37,6% của Opus 4.5, 54,2% của GPT-5.2 và 45,1% của Gemini 3 Pro.

Như thường lệ, hãy xem xét các tiêu chuẩn đánh giá AI một cách thận trọng, vì việc đo lường khách quan khả năng của mô hình AI là một lĩnh vực tương đối mới và chưa được hoàn thiện.

Anthropic cũng cho biết rằng trên một bài kiểm tra đánh giá khả năng truy xuất ngữ cảnh dài có tên MRCR v2 , Opus 4.6 đạt 76% trên biến thể 1 triệu token, so với 18,5% của mô hình Sonnet 4.5. Khoảng cách này rất quan trọng đối với trường hợp sử dụng của các nhóm tác nhân, vì các tác nhân hoạt động trên các cơ sở mã lớn cần theo dõi thông tin trên hàng trăm nghìn token mà không bị mất mạch thông tin.

Giá API vẫn giữ nguyên như Opus 4.5 ở mức 5 đô la cho mỗi triệu token đầu vào và 25 đô la cho mỗi triệu token đầu ra, với mức phí cao hơn là 10 đô la/37,50 đô la cho các yêu cầu vượt quá 200.000 token. Opus 4.6 hiện có sẵn trên claude.ai, API của Claude và tất cả các nền tảng đám mây lớn.

Tác động tiêu cực của thị trường bên ngoài

Những bản phát hành này diễn ra trong một tuần đầy biến động đối với cổ phiếu phần mềm. Vào ngày 30 tháng 1, Anthropic đã phát hành 11 plugin mã nguồn mở cho Cowork , công cụ năng suất dựa trên tác nhân của họ được ra mắt vào ngày 12 tháng 1. Bản thân Cowork là một công cụ đa năng cho phép Claude truy cập vào các thư mục cục bộ để thực hiện các nhiệm vụ công việc, nhưng các plugin đã mở rộng chức năng của nó sang các lĩnh vực chuyên môn cụ thể: xem xét hợp đồng pháp lý, phân loại thỏa thuận bảo mật, quy trình làm việc tuân thủ, phân tích tài chính, bán hàng và tiếp thị.

Đến thứ Ba, các nhà đầu tư được cho là đã phản ứng với thông tin này bằng cách xóa sổ khoảng 285 tỷ đô la giá trị thị trường trên các cổ phiếu phần mềm, dịch vụ tài chính và quản lý tài sản. Một rổ cổ phiếu phần mềm của Mỹ do Goldman Sachs đánh giá đã giảm 6% trong ngày hôm đó, mức giảm mạnh nhất trong một phiên giao dịch kể từ đợt bán tháo do thuế quan gây ra hồi tháng Tư. Thomson Reuters dẫn đầu đợt giảm mạnh với mức giảm 18%, và sự sụt giảm lan sang các thị trường châu Âu và châu Á.

Nỗi lo ngại được cho là của các nhà đầu tư tập trung vào các công ty mô hình AI cung cấp các quy trình làm việc hoàn chỉnh, cạnh tranh với các nhà cung cấp phần mềm dưới dạng dịch vụ (SaaS) đã có chỗ đứng, ngay cả khi vẫn chưa có kết luận cuối cùng về việc liệu các công cụ này có thể hoàn thành được những nhiệm vụ đó hay không.

Nền tảng Frontier của OpenAI có thể làm gia tăng mối lo ngại đó: thiết kế được công bố của nó cho phép các tác nhân AI đăng nhập vào ứng dụng, thực hiện các tác vụ và quản lý công việc với sự can thiệp tối thiểu của con người, điều mà Fortune mô tả là nỗ lực trở thành “hệ điều hành của doanh nghiệp”. Giám đốc điều hành ứng dụng của OpenAI, Fidji Simo, đã phản bác ý kiến cho rằng Frontier thay thế phần mềm hiện có, nói với các phóng viên rằng , “Frontier thực sự là sự thừa nhận rằng chúng ta sẽ không tự mình xây dựng mọi thứ”.

Dù các ứng dụng không gian làm việc chung này có thực sự đáp ứng được kỳ vọng hay không, sự hội tụ của chúng là điều khó có thể bỏ qua. Scott White của Anthropic, người đứng đầu bộ phận sản phẩm doanh nghiệp của công ty, đã đặt cho hình thức này một cái tên có thể khiến nhiều người cảm thấy khó chịu. “Mọi người đều đã chứng kiến sự chuyển đổi này diễn ra trong lĩnh vực kỹ thuật phần mềm trong một năm rưỡi qua, nơi mà khái niệm lập trình cảm tính bắt đầu xuất hiện, và mọi người giờ đây có thể hiện thực hóa ý tưởng của mình,” White nói với CNBC . “Tôi nghĩ rằng chúng ta hiện đang chuyển đổi gần như hoàn toàn sang hình thức làm việc cảm tính.”