Sakana AI: Thuật Toán Tiến Hóa Giúp Hợp Nhất Mô Hình, Giảm Chi Phí Đào Tạo Lại LLM
M2N2: Ứng Dụng Nguyên Lý Chọn Lọc Tự Nhiên Trong Phát Triển AI
Chi phí và tài nguyên điện toán khổng lồ để đào tạo lại (retraining) hoặc tinh chỉnh (fine-tuning) các Mô hình Ngôn ngữ Lớn (LLM) là rào cản lớn đối với nhiều công ty và nhà nghiên cứu. Sakana AI, startup AI có trụ sở tại Nhật Bản, đang thách thức mô hình này bằng một cách tiếp cận đột phá lấy cảm hứng từ sinh học: Thuật toán Tiến hóa (Evolutionary Algorithm).
Cụ thể, Sakana AI giới thiệu kỹ thuật Model Merging of Natural Niches (M2N2) – tạm dịch là "Hợp Nhất Mô Hình từ Hốc Tự Nhiên," cho phép các nhà phát triển nâng cấp và mở rộng khả năng của các mô hình AI mà không cần phải trải qua các quy trình đào tạo lại tốn kém.

Cơ Chế Hợp Nhất Mô Hình Tiến Hóa
M2N2 hoạt động dựa trên ý tưởng kết hợp trí thông minh tập thể của nhiều mô hình nguồn mở hiện có, tương tự như quá trình chọn lọc tự nhiên trong tự nhiên:
"Giao Phối" Mô Hình: Thuật toán tự động kết hợp các thành phần của nhiều mô hình đã được đào tạo trước (ví dụ: các lớp mạng nơ-ron hoặc trọng số - weights) từ các miền khác nhau (ví dụ: mô hình ngôn ngữ tiếng Nhật và mô hình giải toán).
Lựa Chọn Tối Ưu: Thuật toán tiến hóa khám phá một không gian khổng lồ của các tổ hợp mô hình tiềm năng, tự động tìm ra "công thức" hợp nhất mang lại hiệu suất tốt nhất trên các tác vụ mục tiêu.
Không Cần Đào Tạo Bổ Sung: Điểm cốt lõi là quá trình hợp nhất này chỉ yêu cầu các bước tính toán nhẹ (forward passes) thay vì cập nhật gradient tốn kém như fine-tuning. Điều này giảm chi phí phát triển AI xuống nhiều lần.
Tác Động Chuyển Đổi và Dân Chủ Hóa AI
Phương pháp của Sakana AI có ý nghĩa lớn đối với ngành AI:
Tiết Kiệm Chi Phí Khổng Lồ: Bằng cách loại bỏ nhu cầu sử dụng GPU đắt tiền cho việc đào tạo lại, M2N2 giúp các công ty nhỏ và các nhà nghiên cứu cá nhân có thể tạo ra các mô hình tiên tiến mà không cần truy cập vào các nguồn tài nguyên điện toán lớn.
Tạo Ra Khả Năng Mới: Thuật toán có thể khám phá các cách hợp nhất phi trực giác mà ngay cả các chuyên gia con người cũng khó nghĩ ra, dẫn đến các mô hình lai (hybrid models) có khả năng giải quyết các vấn đề đa lĩnh vực.
Tăng Tốc Đổi Mới: Cho phép các mô hình mới được phát triển và triển khai nhanh hơn nhiều so với các chu kỳ đào tạo truyền thống, thúc đẩy tốc độ đổi mới trong toàn bộ hệ sinh thái LLM nguồn mở.
M2N2 của Sakana AI chứng minh rằng sự đổi mới trong kiến trúc AI và thuật toán tiến hóa có thể là chìa khóa để vượt qua những giới hạn về tài nguyên của kỷ nguyên AI hiện tại