Claude Sonnet 4.5 là mô hình AI an toàn nhất của Anthropic cho đến nay

Tác giả hongchau 21/10/2025 5 phút đọc

Vào tháng 5, Anthropic đã công bố hai hệ thống AI mới là Opus 4 và Sonnet 4. Chỉ chưa đầy sáu tháng sau, công ty giới thiệu Sonnet 4.5 và gọi đây là mô hình lập trình tốt nhất thế giới cho đến nay. Cơ sở để Anthropic đưa ra tuyên bố này là các bài kiểm tra chuẩn (benchmark) cho thấy AI mới không chỉ vượt trội so với phiên bản trước mà còn hơn cả Opus 4.1 đắt tiền hơn và các hệ thống cạnh tranh khác như Gemini 2.5 Pro của Google và GPT-5 của OpenAI. Ví dụ, trong bộ bài kiểm tra OSWorld, dùng để đánh giá các mô hình AI trên các nhiệm vụ máy tính thực tế, Sonnet 4.5 đã đạt điểm kỷ lục 61.4%, cao hơn Opus 4.1 đến 17 điểm phần trăm.

Đồng thời, mô hình mới này có khả năng tự động làm việc trên các dự án nhiều bước trong hơn 30 giờ, một cải tiến đáng kể so với khoảng 7 giờ mà Opus 4 có thể duy trì khi mới ra mắt. Đây là một cột mốc quan trọng đối với loại hệ thống “tác nhân” (agentic systems) mà Anthropic muốn phát triển.

Sonnet 4.5 vượt trội so với các mô hình cũ của Anthropic trong cả lập trình và các tác vụ “tác nhân”.

Có lẽ quan trọng hơn cả, công ty cho biết Sonnet 4.5 là hệ thống AI an toàn nhất mà họ từng phát triển, với mô hình đã trải qua quá trình đào tạo an toàn "mở rộng." Quá trình này giúp chatbot ít bị rơi vào các vấn đề như xu nịnh, lừa dối, tìm kiếm quyền lực và khuyến khích suy nghĩ ảo tưởng — những đặc điểm tiềm ẩn đã gây rắc rối cho OpenAI trong vài tháng qua. Đồng thời, Anthropic cũng tăng cường các biện pháp bảo vệ Sonnet 4.5 khỏi các cuộc tấn công tiêm nhiễm lệnh (prompt injection). Do độ tinh vi của mô hình mới, Anthropic phát hành Sonnet 4.5 theo khung an toàn AI Cấp 3, nghĩa là nó đi kèm với các bộ lọc nhằm ngăn chặn các phản hồi tiềm ẩn nguy hiểm liên quan đến các chủ đề về vũ khí hóa học, sinh học và hạt nhân.

Cùng với thông báo này, Anthropic cũng cập nhật nhiều cải tiến về trải nghiệm người dùng cho toàn bộ hệ sinh thái sản phẩm Claude. Đầu tiên, Claude Code — công cụ lập trình được yêu thích của công ty — có giao diện terminal mới, với tính năng checkpoint cho phép bạn lưu lại tiến trình và quay lại trạng thái trước nếu Claude viết mã không đúng ý. Tính năng tạo file, đã bắt đầu được triển khai từ đầu tháng, nay đã có sẵn cho tất cả người dùng Pro. Ngoài ra, nếu bạn đã đăng ký danh sách chờ cho tiện ích Claude trên Chrome, bạn có thể bắt đầu sử dụng nó ngay hôm nay.

Giá API cho Sonnet 4.5 vẫn giữ nguyên ở mức 3 đô la cho mỗi triệu token đầu vào và 15 đô la cho cùng lượng token đầu ra. Việc ra mắt Sonnet 4.5 đã kết thúc một tháng 9 thành công rực rỡ của Anthropic. Chỉ một ngày sau khi Microsoft tích hợp các mô hình Claude vào Copilot 365, OpenAI cũng thừa nhận đối thủ của mình cung cấp AI tốt nhất cho các tác vụ liên quan đến công việc.