Một công ty khởi nghiệp mới thành lập một năm tại Trung Quốc đang gây chấn động ngành công nghiệp AI sau khi ra mắt một chatbot có hiệu năng ngang ngửa ChatGPT nhưng lại chỉ tốn một phần nhỏ chi phí điện năng, làm mát và đào tạo so với các hệ thống của OpenAI, Google và Anthropic. Dưới đây là tất cả những gì bạn cần biết về các mô hình V3 và R1 của Deepseek và lý do tại sao công ty này có thể đảo ngược hoàn toàn tham vọng AI của nước Mỹ.
DeepSeek là gì?
DeepSeek (tên kỹ thuật là "Công ty TNHH Nghiên cứu Công nghệ Cơ bản Trí tuệ Nhân tạo Hàng Châu DeepSeek") là một công ty khởi nghiệp AI của Trung Quốc, ban đầu được thành lập như một phòng thí nghiệm AI cho công ty mẹ High-Flyer vào tháng 4 năm 2023. Tháng 5 năm đó, DeepSeek được tách thành công ty riêng (với High-Flyer vẫn là nhà đầu tư) và cũng đã ra mắt mô hình DeepSeek-V2. V2 mang lại hiệu suất ngang bằng với các công ty AI hàng đầu khác của Trung Quốc, chẳng hạn như ByteDance, Tencent và Baidu, nhưng với chi phí vận hành thấp hơn nhiều.
Công ty tiếp tục phát hành V3 vào tháng 12 năm 2024. V3 là một mô hình 671 tỷ tham số được cho là chỉ mất chưa đầy 2 tháng để đào tạo . Hơn nữa, theo một phân tích gần đây từ Jeffries, "chi phí đào tạo của DeepSeek chỉ 5,6 triệu đô la Mỹ (giả sử chi phí thuê 2 đô la/giờ 800 giờ). Con số này thấp hơn 10% chi phí của Llama của Meta". Con số này chỉ là một phần rất nhỏ so với hàng trăm triệu đến hàng tỷ đô la mà các công ty Mỹ như Google, Microsoft, xAI và OpenAI đã chi cho việc đào tạo các mô hình của họ.
Các bài kiểm tra chuẩn cho thấy hiệu suất của V3 ngang bằng với GPT-4o và Claude 3.5 Sonnet. Một bài xã luận trên tờ The Hill tháng 12 năm 2024 đã gọi thành công của DeepSeek là "Khoảnh khắc Sputnik" của nước Mỹ.
DeepSeek đã phát hành mô hình R1-Lite-Preview vào tháng 11 năm 2024, tuyên bố rằng mô hình mới này có thể vượt trội hơn dòng mô hình suy luận o1 của OpenAI (và với mức giá chỉ bằng một phần nhỏ). Công ty ước tính rằng chi phí vận hành mô hình R1 thấp hơn từ 20 đến 50 lần, tùy thuộc vào tác vụ, so với mô hình o1 của OpenAI. Sau đó, DeepSeek đã phát hành DeepSeek-R1 và DeepSeek-R1-Zero vào tháng 1 năm 2025. Không giống như đối thủ o1, mô hình R1 là mã nguồn mở, nghĩa là bất kỳ nhà phát triển nào cũng có thể sử dụng.
Nhờ đó, V3 và R1 đã trở nên cực kỳ phổ biến kể từ khi ra mắt, với Trợ lý AI được hỗ trợ bởi V3 của DeepSeek đã vượt mặt ChatGPT để chiếm vị trí dẫn đầu các cửa hàng ứng dụng . Trong một bài đăng gần đây trên mạng xã hội, nhà đầu tư mạo hiểm Marc Andreesen đã gọi chatbot của DeepSeek là "một trong những đột phá tuyệt vời và ấn tượng nhất mà tôi từng thấy" và là "một món quà sâu sắc cho thế giới".
DeepSeek có thể làm gì?
Là một mô hình ngôn ngữ lớn nguồn mở, các chatbot của DeepSeek về cơ bản có thể làm mọi thứ mà ChatGPT, Gemini và Claude có thể làm. Điều đó bao gồm tạo văn bản, âm thanh, hình ảnh và video. Hơn nữa, dòng mô hình đa phương thức mới ra mắt của DeepSeek, được gọi là Janus Pro , được cho là vượt trội hơn DALL-E 3 cũng như PixArt-alpha, Emu3-Gen và Stable Diffusion XL, trên một cặp chuẩn mực công nghiệp. DeepSeek-R1, cạnh tranh với o1, được thiết kế đặc biệt để thực hiện các tác vụ suy luận phức tạp, đồng thời tạo ra các giải pháp từng bước cho các vấn đề và thiết lập "chuỗi suy nghĩ logic", trong đó nó giải thích quy trình suy luận của mình theo từng bước khi giải quyết một vấn đề.
Điều mà các sản phẩm của DeepSeek không thể làm được là nói về Quảng trường Thiên An Môn. Hay các cuộc biểu tình Dù Vàng. Hay hình ảnh Chủ tịch Tập Cận Bình giống Gấu Pooh. Về cơ bản, nếu đó là một chủ đề bị Đảng Cộng sản Trung Quốc coi là cấm kỵ, chatbot của DeepSeek sẽ không đề cập hoặc tham gia một cách có ý nghĩa nào.
 

