DeepSeek chuẩn bị cho sự đột phá AI tiếp theo với các mô hình tự cải thiện
DeepSeek chuẩn bị cho sự đột phá AI tiếp theo với các mô hình tự cải thiện
Nadeem Sarwar / Xu hướng số
Chỉ vài tháng trước, canh bạc lớn của Phố Wall vào AI tạo sinh đã phải cân nhắc khi DeepSeek xuất hiện. Mặc dù bị kiểm duyệt gắt gao , DeepSeek mã nguồn mở đã chứng minh rằng một mô hình AI lý luận tiên phong không nhất thiết phải tốn hàng tỷ đô la và có thể được thực hiện chỉ với nguồn lực khiêm tốn.
Nó nhanh chóng được các ông lớn như Huawei, Oppo và Vivo ứng dụng thương mại , trong khi Microsoft, Alibaba và Tencent cũng nhanh chóng đưa nó lên nền tảng của họ. Giờ đây, mục tiêu tiếp theo của công ty Trung Quốc đang gây sốt này là các mô hình AI tự cải thiện, sử dụng phương pháp đánh giá-phần thưởng lặp lại để tự cải thiện.
Trong một bài báo tiền in (qua Bloomberg ), các nhà nghiên cứu tại DeepSeek và Đại học Thanh Hoa của Trung Quốc đã mô tả một phương pháp mới có thể giúp các mô hình AI thông minh và hiệu quả hơn theo hướng tự cải thiện. Công nghệ nền tảng này được gọi là điều chỉnh phê bình tự nguyên tắc (SPCT), và phương pháp này về mặt kỹ thuật được gọi là mô hình phần thưởng sinh ra (GRM).
Nadeem Sarwar / Xu hướng số
Nói một cách đơn giản nhất, nó giống như việc tạo ra một vòng phản hồi theo thời gian thực. Một mô hình AI được cải thiện về cơ bản bằng cách mở rộng quy mô của mô hình trong quá trình huấn luyện. Điều này đòi hỏi rất nhiều công sức của con người và tài nguyên tính toán. DeepSeek đang đề xuất một hệ thống mà trong đó "thẩm phán" cơ bản đi kèm với bộ nguyên tắc và đánh giá riêng cho một mô hình AI khi nó chuẩn bị câu trả lời cho các truy vấn của người dùng.
Bộ phê bình và nguyên tắc này sau đó được so sánh với các quy tắc tĩnh được thiết lập trong mô hình AI và kết quả mong muốn. Nếu có mức độ trùng khớp cao, tín hiệu thưởng sẽ được tạo ra, giúp AI thực hiện tốt hơn nữa trong chu kỳ tiếp theo.
Các chuyên gia đứng sau bài báo này gọi thế hệ tiếp theo của các mô hình AI tự cải thiện là DeepSeek-GRM. Các điểm chuẩn được liệt kê trong bài báo cho thấy các mô hình này hoạt động tốt hơn các mô hình Gemini của Google, Llama của Meta và GPT-4o của OpenAI. DeepSeek cho biết các mô hình AI thế hệ tiếp theo này sẽ được phát hành thông qua kênh mã nguồn mở.
AI tự cải thiện?
Cao đẳng Dartmouth
Chủ đề AI có khả năng tự cải thiện đã thu hút một số phát biểu đầy tham vọng và gây tranh cãi. Cựu CEO Google, Eric Schmidt, lập luận rằng chúng ta có thể cần một công tắc tắt cho những hệ thống như vậy. "Khi hệ thống có thể tự cải thiện, chúng ta cần nghiêm túc cân nhắc việc tắt nó đi", Schmidt được Fortune trích dẫn .
Khái niệm về một AI tự cải tiến đệ quy không hẳn là một khái niệm mới mẻ. Ý tưởng về một cỗ máy siêu thông minh, sau đó có khả năng tạo ra những cỗ máy thậm chí còn tốt hơn, thực ra đã có từ thời nhà toán học IJ Good vào năm 1965. Năm 2007, chuyên gia AI Eliezer Yudkowsky đã đưa ra giả thuyết về Seed AI , một AI "được thiết kế để tự hiểu, tự sửa đổi và tự cải tiến đệ quy".
Có liên quan:
Năm 2024, Sakana AI của Nhật Bản đã trình bày chi tiết khái niệm "Nhà khoa học AI" về một hệ thống có khả năng xử lý toàn bộ quy trình của một bài nghiên cứu từ đầu đến cuối. Trong một bài nghiên cứu được công bố vào tháng 3 năm nay, các chuyên gia của Meta đã tiết lộ các mô hình ngôn ngữ tự thưởng, trong đó chính AI đóng vai trò là người đánh giá để đưa ra phần thưởng trong quá trình đào tạo.
Xem thêm
Các thử nghiệm nội bộ của Meta trên mô hình AI Llama 2 sử dụng kỹ thuật tự thưởng mới lạ này cho thấy nó vượt trội hơn các đối thủ như Claude 2 của Anthropic, Gemini Pro của Google và các mô hình GPT-4 của OpenAI. Anthropic, được Amazon hậu thuẫn, đã mô tả chi tiết cái mà họ gọi là "thủ đoạn giả mạo phần thưởng", một quá trình bất ngờ "trong đó một mô hình trực tiếp sửa đổi cơ chế thưởng của chính nó".
Google cũng không hề kém cạnh trong ý tưởng này. Trong một nghiên cứu được công bố trên tạp chí Nature đầu tháng này, các chuyên gia tại Google DeepMind đã giới thiệu một thuật toán AI có tên Dreamer có khả năng tự cải thiện, lấy trò chơi Minecraft làm ví dụ thực hành.
Các chuyên gia tại IBM đang nghiên cứu phương pháp riêng của họ, được gọi là huấn luyện đóng suy diễn, trong đó một mô hình AI sử dụng các phản hồi của chính nó và đánh giá chúng dựa trên dữ liệu huấn luyện để tự cải thiện. Tuy nhiên, toàn bộ tiền đề không phải lúc nào cũng toàn màu hồng.
Nghiên cứu cho thấy khi các mô hình AI cố gắng tự đào tạo trên dữ liệu tổng hợp tự tạo, điều này sẽ dẫn đến những khiếm khuyết thường được gọi là "sụp đổ mô hình". Sẽ rất thú vị khi xem DeepSeek thực hiện ý tưởng này như thế nào và liệu nó có thể thực hiện theo cách tiết kiệm hơn so với các đối thủ phương Tây hay không.