Các công ty trí tuệ nhân tạo muốn bạn ngừng trò chuyện với bot và bắt đầu quản lý chúng.

Tác giả dinhtri 06/02/2026 20 phút đọc

Claude Opus 4.6 và OpenAI Frontier đề xuất một tương lai về việc giám sát các tác nhân AI.

Các doanh nhân giám sát công việc của robot

Hôm thứ Năm, Anthropic và OpenAI đã cho ra mắt các sản phẩm được xây dựng dựa trên cùng một ý tưởng: thay vì trò chuyện với một trợ lý AI duy nhất, người dùng nên quản lý các nhóm tác nhân AI phân chia công việc và hoạt động song song. Việc ra mắt đồng thời này là một phần của sự chuyển đổi dần dần trong toàn ngành, từ AI đóng vai trò là đối tác trò chuyện sang AI đóng vai trò là lực lượng lao động được ủy thác, và chúng diễn ra trong tuần mà chính khái niệm này được cho là đã khiến cổ phiếu phần mềm mất đi 285 tỷ đô la.

Liệu mô hình giám sát đó có hiệu quả trong thực tế hay không vẫn còn là một câu hỏi bỏ ngỏ. Các tác nhân AI hiện tại vẫn cần sự can thiệp mạnh mẽ của con người để phát hiện lỗi, và chưa có đánh giá độc lập nào xác nhận rằng các công cụ đa tác nhân này hoạt động hiệu quả hơn một nhà phát triển đơn lẻ.

Mặc dù vậy, các công ty đang dồn toàn lực vào trí tuệ nhân tạo (agent). Đóng góp của Anthropic là Claude Opus 4.6 , một phiên bản mới của mô hình AI mạnh mẽ nhất của họ, kết hợp với tính năng " nhóm tác nhân" ( agent teams ) trong Claude Code. Nhóm tác nhân cho phép các nhà phát triển tạo ra nhiều tác nhân AI chia nhỏ một nhiệm vụ thành các phần độc lập, phối hợp tự động và chạy đồng thời.

Trên thực tế, các nhóm tác nhân trông giống như một môi trường thiết bị đầu cuối chia màn hình: Nhà phát triển có thể chuyển đổi giữa các tác nhân con bằng cách sử dụng Shift+Lên/Xuống, trực tiếp điều khiển bất kỳ tác nhân nào và quan sát các tác nhân khác tiếp tục làm việc. Anthropic mô tả tính năng này phù hợp nhất cho “các tác vụ được chia thành các công việc độc lập, đòi hỏi nhiều thao tác đọc như xem xét mã nguồn”. Tính năng này hiện có sẵn dưới dạng bản xem trước dành cho nghiên cứu.

Trong khi đó, OpenAI đã ra mắt Frontier , một nền tảng doanh nghiệp mà họ mô tả là cách để “thuê những cộng sự AI đảm nhận nhiều nhiệm vụ mà con người đã thực hiện trên máy tính”. Frontier gán cho mỗi tác nhân AI một danh tính, quyền hạn và bộ nhớ riêng, đồng thời kết nối với các hệ thống kinh doanh hiện có như CRM, công cụ quản lý yêu cầu hỗ trợ và kho dữ liệu. “Về cơ bản, chúng tôi đang chuyển đổi các tác nhân thành những cộng sự AI thực sự”, Barret Zoph, tổng giám đốc mảng kinh doanh B2B của OpenAI, chia sẻ với CNBC .

Mặc dù có nhiều lời quảng cáo thổi phồng về việc các trợ lý ảo này là cộng sự, nhưng theo kinh nghiệm của chúng tôi , chúng hoạt động hiệu quả nhất nếu bạn coi chúng như những công cụ khuếch đại các kỹ năng hiện có, chứ không phải là những cộng sự tự động như ngôn ngữ tiếp thị ám chỉ. Chúng có thể tạo ra các bản nháp ấn tượng một cách nhanh chóng nhưng vẫn cần sự điều chỉnh liên tục của con người.

Việc ra mắt Frontier diễn ra chỉ ba ngày sau khi OpenAI phát hành ứng dụng máy tính để bàn macOS mới cho Codex, công cụ lập trình AI của họ, mà các giám đốc điều hành của OpenAI mô tả là "trung tâm điều khiển cho các tác nhân". Ứng dụng Codex cho phép các nhà phát triển chạy nhiều luồng tác nhân song song, mỗi luồng hoạt động trên một bản sao mã nguồn riêng biệt thông qua cây làm việc Git.

Hôm thứ Năm, OpenAI cũng đã phát hành GPT-5.3-Codex , một mô hình AI mới hỗ trợ ứng dụng Codex. OpenAI tuyên bố rằng nhóm Codex đã sử dụng các phiên bản đầu tiên của GPT-5.3-Codex để gỡ lỗi quá trình huấn luyện của mô hình, quản lý việc triển khai và chẩn đoán kết quả thử nghiệm, tương tự như những gì OpenAI đã nói với Ars Technica trong một cuộc phỏng vấn hồi tháng 12.

“Nhóm của chúng tôi vô cùng ấn tượng về khả năng thúc đẩy quá trình phát triển của Codex,” công ty viết. Trên Terminal-Bench 2.0, chuẩn đánh giá mã hóa tác nhân, GPT-5.3-Codex đạt 77,3%, vượt trội hơn Opus 4.6 vừa được Anthropic phát hành khoảng 12 điểm phần trăm.

Điểm chung của tất cả các sản phẩm này là sự thay đổi vai trò của người dùng. Thay vì chỉ đơn thuần gõ lệnh và chờ phản hồi, nhà phát triển hoặc người làm việc trí thức trở nên giống như một người giám sát, phân công nhiệm vụ, theo dõi tiến độ và can thiệp khi người dùng cần hướng dẫn.

Trong viễn cảnh này, các nhà phát triển và chuyên gia tri thức sẽ trở thành những người quản lý trung gian của AI. Nghĩa là, họ không tự viết mã hay thực hiện phân tích, mà chỉ phân công nhiệm vụ, xem xét kết quả và hy vọng các tác nhân cấp dưới không âm thầm gây ra lỗi. Liệu điều đó có thành hiện thực hay không (hoặc liệu đó có phải là một ý tưởng hay) vẫn còn đang được tranh luận rộng rãi.

Một mẫu xe mới dưới nắp ca-pô của Claude.

Opus 4.6 là bản cập nhật đáng kể cho mô hình chủ lực của Anthropic. Nó kế nhiệm Claude Opus 4.5 , được Anthropic phát hành vào tháng 11. Lần đầu tiên trong dòng mô hình Opus, nó hỗ trợ cửa sổ ngữ cảnh lên đến 1 triệu token (trong phiên bản beta), có nghĩa là nó có thể xử lý các khối văn bản hoặc mã lớn hơn nhiều trong một phiên duy nhất.

Theo Anthropic, Opus 4.6 vượt trội hơn GPT-5.2 của OpenAI (một mẫu cũ hơn so với mẫu được phát hành hôm nay) và Gemini 3 Pro của Google trên nhiều bài kiểm tra, bao gồm Terminal-Bench 2.0 (một bài kiểm tra lập trình tác nhân), Humanity's Last Exam (một bài kiểm tra suy luận đa ngành) và BrowseComp (một bài kiểm tra tìm kiếm thông tin khó tìm trên mạng).

Tuy nhiên, cần lưu ý rằng OpenAI GPT-5.3-Codex, được phát hành cùng ngày, dường như đã giành lại vị trí dẫn đầu trên Terminal-Bench. Trên ARC AGI 2 , một bài kiểm tra nhằm đánh giá khả năng giải quyết các vấn đề dễ đối với con người nhưng khó đối với các mô hình AI, Opus 4.6 đạt 68,8%, so với 37,6% của Opus 4.5, 54,2% của GPT-5.2 và 45,1% của Gemini 3 Pro.

Như thường lệ, hãy xem xét các tiêu chuẩn đánh giá AI một cách thận trọng, vì việc đo lường khách quan khả năng của mô hình AI là một lĩnh vực tương đối mới và chưa được hoàn thiện.

Anthropic cũng cho biết rằng trên một bài kiểm tra đánh giá khả năng truy xuất ngữ cảnh dài có tên MRCR v2 , Opus 4.6 đạt 76% trên biến thể 1 triệu token, so với 18,5% của mô hình Sonnet 4.5. Khoảng cách này rất quan trọng đối với trường hợp sử dụng của các nhóm tác nhân, vì các tác nhân hoạt động trên các cơ sở mã lớn cần theo dõi thông tin trên hàng trăm nghìn token mà không bị mất mạch thông tin.

Giá API vẫn giữ nguyên như Opus 4.5 ở mức 5 đô la cho mỗi triệu token đầu vào và 25 đô la cho mỗi triệu token đầu ra, với mức phí cao hơn là 10 đô la/37,50 đô la cho các yêu cầu vượt quá 200.000 token. Opus 4.6 hiện có sẵn trên claude.ai, API của Claude và tất cả các nền tảng đám mây lớn.

Tác động tiêu cực của thị trường bên ngoài

Những bản phát hành này diễn ra trong một tuần đầy biến động đối với cổ phiếu phần mềm. Vào ngày 30 tháng 1, Anthropic đã phát hành 11 plugin mã nguồn mở cho Cowork , công cụ năng suất dựa trên tác nhân của họ được ra mắt vào ngày 12 tháng 1. Bản thân Cowork là một công cụ đa năng cho phép Claude truy cập vào các thư mục cục bộ để thực hiện các nhiệm vụ công việc, nhưng các plugin đã mở rộng chức năng của nó sang các lĩnh vực chuyên môn cụ thể: xem xét hợp đồng pháp lý, phân loại thỏa thuận bảo mật, quy trình làm việc tuân thủ, phân tích tài chính, bán hàng và tiếp thị.

Đến thứ Ba, các nhà đầu tư được cho là đã phản ứng với thông tin này bằng cách xóa sổ khoảng 285 tỷ đô la giá trị thị trường trên các cổ phiếu phần mềm, dịch vụ tài chính và quản lý tài sản. Một rổ cổ phiếu phần mềm của Mỹ do Goldman Sachs đánh giá đã giảm 6% trong ngày hôm đó, mức giảm mạnh nhất trong một phiên giao dịch kể từ đợt bán tháo do thuế quan gây ra hồi tháng Tư. Thomson Reuters dẫn đầu đợt giảm mạnh với mức giảm 18%, và sự sụt giảm lan sang các thị trường châu Âu và châu Á.

Nỗi lo ngại được cho là của các nhà đầu tư tập trung vào các công ty mô hình AI cung cấp các quy trình làm việc hoàn chỉnh, cạnh tranh với các nhà cung cấp phần mềm dưới dạng dịch vụ (SaaS) đã có chỗ đứng, ngay cả khi vẫn chưa có kết luận cuối cùng về việc liệu các công cụ này có thể hoàn thành được những nhiệm vụ đó hay không.

Nền tảng Frontier của OpenAI có thể làm gia tăng mối lo ngại đó: thiết kế được công bố của nó cho phép các tác nhân AI đăng nhập vào ứng dụng, thực hiện các tác vụ và quản lý công việc với sự can thiệp tối thiểu của con người, điều mà Fortune mô tả là nỗ lực trở thành “hệ điều hành của doanh nghiệp”. Giám đốc điều hành ứng dụng của OpenAI, Fidji Simo, đã phản bác ý kiến ​​cho rằng Frontier thay thế phần mềm hiện có, nói với các phóng viên rằng , “Frontier thực sự là sự thừa nhận rằng chúng ta sẽ không tự mình xây dựng mọi thứ”.

Dù các ứng dụng không gian làm việc chung này có thực sự đáp ứng được kỳ vọng hay không, sự hội tụ của chúng là điều khó có thể bỏ qua. Scott White của Anthropic, người đứng đầu bộ phận sản phẩm doanh nghiệp của công ty, đã đặt cho hình thức này một cái tên có thể khiến nhiều người cảm thấy khó chịu. “Mọi người đều đã chứng kiến ​​sự chuyển đổi này diễn ra trong lĩnh vực kỹ thuật phần mềm trong một năm rưỡi qua, nơi mà khái niệm lập trình cảm tính bắt đầu xuất hiện, và mọi người giờ đây có thể hiện thực hóa ý tưởng của mình,” White nói với CNBC . “Tôi nghĩ rằng chúng ta hiện đang chuyển đổi gần như hoàn toàn sang hình thức làm việc cảm tính.”

Tác giả dinhtri Admin
Bài viết trước Đánh giá Dragon Quest 7: Reimagined: Một tựa game nhập vai Nhật Bản hoài cổ, cân bằng giữa nét quyến rũ và hiện đại.

Đánh giá Dragon Quest 7: Reimagined: Một tựa game nhập vai Nhật Bản hoài cổ, cân bằng giữa nét quyến rũ và hiện đại.

Bài viết tiếp theo

Những camera an ninh gia đình chạy bằng năng lượng mặt trời tốt nhất năm 2026

Những camera an ninh gia đình chạy bằng năng lượng mặt trời tốt nhất năm 2026
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899