OpenAI vượt mặt Nvidia với mô hình lập trình cực nhanh trên chip kích thước bằng cái đĩa

Tác giả dangkhoa 23/02/2026 15 phút đọc

OpenAI vượt mặt Nvidia với mô hình lập trình cực nhanh trên chip kích thước bằng cái đĩa.

Phiên bản GPT-5.3-Codex-Spark mới của OpenAI có tốc độ lập trình nhanh hơn gấp 15 lần so với phiên bản tiền nhiệm.

Hôm thứ Năm, OpenAI đã phát hành mô hình AI thương mại đầu tiên chạy trên phần cứng không phải của Nvidia, triển khai mô hình mã hóa GPT-5.3-Codex-Spark mới trên chip của Cerebras. Mô hình này cung cấp mã với tốc độ hơn 1.000 token (khối dữ liệu) mỗi giây, được cho là nhanh hơn khoảng 15 lần so với phiên bản tiền nhiệm. Để so sánh, Claude Opus 4.6 của Anthropic ở chế độ nhanh với giá cao hơn đạt tốc độ nhanh hơn khoảng 2,5 lần so với tốc độ tiêu chuẩn là 68,2 token mỗi giây , mặc dù đây là một mô hình lớn hơn và mạnh mẽ hơn Spark.

“Cerebras là một đối tác kỹ thuật tuyệt vời, và chúng tôi rất vui mừng khi bổ sung khả năng suy luận nhanh như một tính năng mới cho nền tảng,” Sachin Katti, người đứng đầu bộ phận điện toán tại OpenAI, cho biết trong một tuyên bố.

Codex-Spark là bản xem trước nghiên cứu dành cho người đăng ký ChatGPT Pro (200 đô la/tháng) thông qua ứng dụng Codex, giao diện dòng lệnh và tiện ích mở rộng VS Code. OpenAI đang triển khai quyền truy cập API cho một số đối tác thiết kế được chọn. Mô hình được tích hợp sẵn cửa sổ ngữ cảnh 128.000 token và chỉ xử lý văn bản khi khởi chạy.

Phiên bản này được xây dựng dựa trên mô hình GPT-5.3-Codex đầy đủ mà OpenAI đã ra mắt hồi đầu tháng này. Trong khi mô hình đầy đủ xử lý các tác vụ lập trình tác nhân phức tạp, OpenAI đã tinh chỉnh Spark để ưu tiên tốc độ hơn là chiều sâu kiến thức. OpenAI đã xây dựng nó như một mô hình chỉ xử lý văn bản và tinh chỉnh nó đặc biệt cho việc lập trình, chứ không phải cho các tác vụ đa năng mà phiên bản lớn hơn của GPT-5.3 xử lý.

Trên SWE-Bench Pro và Terminal-Bench 2.0, hai bộ dữ liệu chuẩn để đánh giá khả năng kỹ thuật phần mềm, Spark được cho là vượt trội hơn so với GPT-5.1-Codex-mini cũ hơn, đồng thời hoàn thành các tác vụ trong thời gian ngắn hơn nhiều, theo OpenAI. Công ty này không chia sẻ thông tin xác thực độc lập về những con số đó.

Theo kinh nghiệm thực tế, tốc độ của Codex là một điểm yếu; khi Ars thử nghiệm bốn tác nhân lập trình AI xây dựng các bản sao của trò chơi Minesweeper vào tháng 12, Codex mất thời gian gấp đôi so với Claude Code của Anthropic để tạo ra một trò chơi hoạt động được.

Cuộc chạy đua vũ trang giữa các tác nhân lập trình

Để dễ hình dung, tốc độ 1.000 token mỗi giây của GPT-5.3-Codex-Spark thể hiện một bước nhảy vọt khá ấn tượng so với bất kỳ hiệu năng nào mà OpenAI từng cung cấp thông qua cơ sở hạ tầng của riêng mình. Theo các bài kiểm tra độc lập từ Artificial Analysis, các mô hình nhanh nhất của OpenAI trên phần cứng Nvidia cũng chỉ đạt tốc độ thấp hơn nhiều: GPT-4o đạt khoảng 147 token mỗi giây, o3-mini đạt khoảng 167, và GPT-4o mini đạt khoảng 52.

Nhưng tốc độ 1.000 token mỗi giây thực sự là khá khiêm tốn theo tiêu chuẩn của Cerebra. Công ty này đã đo được tốc độ 2.100 token mỗi giây trên mô hình Llama 3.1 70B và báo cáo tốc độ 3.000 token mỗi giây trên mô hình gpt-oss-120B trọng lượng mở của chính OpenAI, cho thấy tốc độ tương đối thấp hơn của Codex-Spark phản ánh chi phí vận hành của một mô hình lớn hơn hoặc phức tạp hơn.

Các tác nhân lập trình AI đã có một năm đột phá , với các công cụ như Codex của OpenAI và Claude Code của Anthropic đạt đến một tầm cao mới về tính hữu ích trong việc nhanh chóng xây dựng các nguyên mẫu, giao diện và mã mẫu. OpenAI, Google và Anthropic đều đang chạy đua để cho ra mắt các tác nhân lập trình có khả năng hơn, và độ trễ đã trở thành yếu tố phân biệt người chiến thắng; một mô hình lập trình nhanh hơn cho phép nhà phát triển lặp lại quy trình nhanh hơn.

Trước sự cạnh tranh gay gắt từ Anthropic, OpenAI đã liên tục cải tiến dòng sản phẩm Codex của mình với tốc độ nhanh chóng, phát hành GPT-5.2 vào tháng 12 sau khi CEO Sam Altman đưa ra một bản ghi nhớ nội bộ "báo động đỏ" về áp lực cạnh tranh từ Google, và sau đó tung ra GPT-5.3-Codex chỉ vài ngày trước.

Đa dạng hóa danh mục đầu tư, tránh phụ thuộc vào Nvidia.

Câu chuyện về phần cứng của Spark có thể còn quan trọng hơn cả điểm số benchmark của nó. Mô hình này chạy trên Wafer Scale Engine 3 của Cerebras, một con chip có kích thước bằng đĩa ăn mà Cerebras đã xây dựng hoạt động kinh doanh của mình xung quanh kể từ ít nhất năm 2022. OpenAI và Cerebras đã công bố hợp tác vào tháng Giêng, và Codex-Spark là sản phẩm đầu tiên ra đời từ sự hợp tác này.

Trong năm qua, OpenAI đã từng bước giảm sự phụ thuộc vào Nvidia. Công ty đã ký một thỏa thuận lớn kéo dài nhiều năm với AMD vào tháng 10 năm 2025, đạt được thỏa thuận điện toán đám mây trị giá 38 tỷ đô la với Amazon vào tháng 11, và đang thiết kế chip AI tùy chỉnh của riêng mình để cuối cùng được sản xuất bởi TSMC.

Trong khi đó, thỏa thuận đầu tư cơ sở hạ tầng trị giá 100 tỷ đô la với Nvidia đã tạm thời đổ bể , mặc dù Nvidia sau đó đã cam kết đầu tư thêm 20 tỷ đô la. Reuters đưa tin rằng OpenAI không hài lòng với tốc độ của một số chip Nvidia đối với các tác vụ suy luận, vốn chính là loại công việc mà OpenAI đã thiết kế Codex-Spark để giải quyết.

Bất kể chip nào được trang bị bên trong, tốc độ vẫn là yếu tố quan trọng, mặc dù điều đó có thể phải trả giá bằng độ chính xác. Đối với các nhà phát triển dành cả ngày trong trình soạn thảo mã để chờ đợi các đề xuất từ AI, tốc độ 1.000 token mỗi giây có thể giống như đang sử dụng cưa xẻ hơn là điều khiển một chiếc cưa ghép hình cẩn thận. Hãy cẩn thận với những gì bạn đang cắt.

Tác giả dangkhoa Admin

Theo dõi:

Bài viết trước

Bạn có thể tiết kiệm 30 đô la khi mua tay cầm DualSense Edge của Sony bằng cách mua hàng tân trang.

Bài viết tiếp theo

Việc tháo rời chiếc LG Rollable chưa được phát hành cho thấy lý do tại sao điện thoại màn hình cuộn không phải là một xu hướng.

Viết bình luận

Thêm bình luận

OpenAI vượt mặt Nvidia với mô hình lập trình cực nhanh trên chip kích thước bằng cái đĩa

OpenAI vượt mặt Nvidia với mô hình lập trình cực nhanh trên chip kích thước bằng cái đĩa.

Cuộc chạy đua vũ trang giữa các tác nhân lập trình

Đa dạng hóa danh mục đầu tư, tránh phụ thuộc vào Nvidia.

Bạn có thể tiết kiệm 30 đô la khi mua tay cầm DualSense Edge của Sony bằng cách mua hàng tân trang.

Việc tháo rời chiếc LG Rollable chưa được phát hành cho thấy lý do tại sao điện thoại màn hình cuộn không phải là một xu hướng.

Bài viết liên quan

Bạn có thể tiết kiệm 30 đô la khi mua tay cầm DualSense Edge của Sony bằng cách mua hàng tân trang.

Tôi làm việc hai ngày tại RentAHuman mà không kiếm được một xu nào.

Một công ty chuyên thu thập dữ liệu web bị Google kiện cáo buộc chính Google mới là bên thu thập dữ liệu web.

Nước Mỹ đang có nguy cơ trở thành một quốc gia lạc hậu về ngành công nghiệp ô tô.

Theo Google, tin tặc đã kích hoạt Gemini hơn 100.000 lần trong quá trình cố gắng sao chép nó.

Chúng tôi để trình duyệt tự động của Chrome tìm kiếm trên web thay cho mình — và đây là những gì đã xảy ra.