DeepSeek vừa công bố một mô hình AI có khả năng cạnh tranh với GPT-5 – và điều này có thể thay đổi mọi thứ.

Tác giả thanhtrung 25/02/2026 13 phút đọc
Tìm kiếm sâu
(Nguồn ảnh: Getty Images)

Công ty khởi nghiệp DeepSeek của Trung Quốc đã bất ngờ tung ra hai mô hình trí tuệ nhân tạo khổng lồ mới vào cuộc chạy đua vũ trang quốc tế vốn đã âm ỉ: DeepSeek-V3.2, một mô hình được xây dựng cho các suy luận hàng ngày, và DeepSeek-V3.2-Speciale, một phiên bản hiệu năng cao được cho là đã vượt trội hơn các mô hình hàng đầu của Mỹ trong các cuộc thi toán học và lập trình danh giá. Không chỉ vậy, họ còn phát hành chúng theo giấy phép mã nguồn mở.

 

Điều khiến động thái này đáng chú ý không chỉ là các mô hình và khả năng của chúng, mà còn là cách chúng được phát hành. Các công ty Mỹ như OpenAI và Google dựa vào các mô hình mạnh mẽ, và thường rất đắt tiền, dựa trên các API riêng tư và thử nghiệm đội đỏ đối với các mô hình tiên tiến nhất. DeepSeek đã tận dụng tính mở một cách hiệu quả.

Theo các báo cáo, DeepSeek-V3.2 có hiệu năng tương đương hoặc vượt trội hơn GPT-5 và Gemini 3 Pro về khả năng suy luận logic phức tạp, sử dụng công cụ và giải quyết vấn đề chi tiết, bao gồm cả các cuộc thi như Olympic Toán học Quốc tế và Chung kết Thế giới ICPC. Phiên bản “Speciale” đạt 99,2% tại Giải đấu Toán học Harvard-MIT, 73% về khả năng sửa lỗi phần mềm và giành huy chương vàng tại nhiều cuộc thi quốc tế ngay cả khi không có kết nối internet hoặc công cụ hỗ trợ bên ngoài.

Mấu chốt đằng sau hiệu năng này là một thủ thuật kiến ​​trúc thông minh gọi là DeepSeek Sparse Attention, hay DSA. Các mô hình transformer truyền thống trở nên cồng kềnh về mặt tính toán khi độ dài ngữ cảnh tăng lên, và chúng phải xem xét mọi từ trong tài liệu so với mọi từ khác. DSA giảm chi phí bằng cách chỉ tập trung vào những phần liên quan nhất của đầu vào, về cơ bản là lướt qua thay vì đọc từng từ. Chỉ riêng điều đó đã giảm chi phí cho các tài liệu dài tới 70%, làm cho mô hình trở nên tương đối rẻ.

Điều này rất quan trọng đối với người dùng thực tế vì chi phí là yếu tố quyết định trong việc triển khai AI. Hầu hết các mô hình tiên tiến hiện nay đều bị giới hạn bởi phí sử dụng và quyền truy cập. Nhưng các mô hình mới nhất của DeepSeek và cửa sổ ngữ cảnh 128.000 token của chúng lại được tải xuống và chỉnh sửa miễn phí. Một nhà phát triển cá nhân hoặc một nhóm sinh viên có thể thoải mái thử nghiệm với các hệ thống mà chỉ vài tháng trước đây sẽ cần đến phòng thí nghiệm và ngân sách điện toán đám mây khổng lồ.

Bước đột phá "tư duy bằng cách sử dụng công cụ" của DeepSeek đặc biệt đáng chú ý. Hầu hết các tác nhân AI đều gặp khó khăn trong việc sử dụng nhiều công cụ cùng lúc vì mỗi hành động đều thiết lập lại quá trình suy luận nội bộ của chúng. DeepSeek đã khắc phục điều đó bằng cách bảo toàn bộ bộ nhớ giữa các công cụ. Công ty đã huấn luyện mô hình bằng hơn 85.000 lệnh tổng hợp phức tạp để giúp nó hoạt động với các công cụ như trình duyệt web thực và môi trường lập trình.

Đó là mức độ chuẩn bị cho các nhiệm vụ thực tế mà hầu hết các chatbot hiện nay đơn giản là không được thiết kế để đáp ứng. Tóm tắt một công thức nấu ăn là một chuyện. Lên kế hoạch cho một kỳ nghỉ nhiều ngày với ngân sách eo hẹp, có những ràng buộc phụ thuộc lẫn nhau về chỗ ở và ăn uống, đồng thời phải làm điều đó trong khi kiểm tra các đoạn mã và kiểm tra tỷ giá hối đoái lại là chuyện khác.

Cạnh tranh AI quốc tế

Cơ chế cấp phép thậm chí còn gây ra nhiều xáo trộn hơn. Bằng cách sử dụng giấy phép mã nguồn mở MIT, DeepSeek đã cho phép bất kỳ ai cũng có thể sao chép, phối lại hoặc thương mại hóa các mô hình của họ một cách hợp pháp. Điều này hoàn toàn trái ngược với xu hướng hiện nay là bảo vệ trọng số mô hình như tài sản trí tuệ, với lý do an toàn, rủi ro lạm dụng và bí mật doanh nghiệp.

Tuy nhiên, sự cởi mở không đồng nghĩa với tính minh bạch. Đó là lý do tại sao các cơ quan quản lý của Đức đã cố gắng chặn DeepSeek vì lo ngại về việc chuyển giao dữ liệu. Ý đã cấm ứng dụng này vào đầu năm nay, và các nhà lập pháp Hoa Kỳ muốn loại bỏ hoàn toàn nó khỏi các thiết bị của chính phủ. DeepSeek là một công ty Trung Quốc, và bối cảnh địa chính trị đóng vai trò rất quan trọng. Nhưng giả sử các mô hình của DeepSeek thực sự mang lại hiệu suất vượt trội với chi phí thấp hơn nhiều, và bạn không bận tâm đến những vấn đề địa chính trị. Vậy chính xác thì các công ty Mỹ đang cung cấp điều gì đáng giá đến mức giá cao như vậy?

Hiện tại, phiên bản Speciale của DeepSeek chỉ có sẵn thông qua API tạm thời. Nhưng đến giữa tháng 12, nó sẽ được hợp nhất vào bản phát hành V3.2 rộng rãi hơn và mọi người đều có thể truy cập. Nếu vài năm qua được định hình bởi sự tiếp cận thân thiện của ChatGPT với AI, thì bản phát hành này giống như một lời nhắc nhở rõ ràng: cuộc chiến đã kết thúc, và cuộc đua AI toàn cầu không chỉ còn là về tính năng nữa, mà còn là về khả năng truy cập, chi phí và quyền kiểm soát.

Tác giả thanhtrung Admin
Bài viết trước Các mô hình AI song sinh kỹ thuật số toàn diện Earth-2 thế hệ tiếp theo của Nvidia sẽ dự đoán và dự báo cơn bão lớn tiếp theo nhanh hơn và chính xác hơn.

Các mô hình AI song sinh kỹ thuật số toàn diện Earth-2 thế hệ tiếp theo của Nvidia sẽ dự đoán và dự báo cơn bão lớn tiếp theo nhanh hơn và chính xác hơn.

Bài viết tiếp theo

Samsung Galaxy S26 Ultra vs. S26 Plus vs. S26: So sánh những khác biệt quan trọng

Samsung Galaxy S26 Ultra vs. S26 Plus vs. S26: So sánh những khác biệt quan trọng
Viết bình luận
Thêm bình luận

Bài viết liên quan

Thông báo

0917111899