TỪ TRANSFORMER ĐẾN STATE SPACE MODELS (SSM) - SỰ TIẾN HÓA CỦA KIẾN TRÚC AI

Tác giả dangkhoa 15/04/2026 9 phút đọc

TỪ TRANSFORMER ĐẾN STATE SPACE MODELS (SSM) - SỰ TIẾN HÓA CỦA KIẾN TRÚC AI

Trong suốt gần một thập kỷ qua, kiến trúc Transformer với cơ chế Tự chú ý (Self-Attention) đã thống trị tuyệt đối thế giới AI. Tuy nhiên, khi chúng ta cố gắng xử lý những chuỗi dữ liệu cực dài (hàng triệu từ hoặc hàng giờ video), Transformer bắt đầu lộ ra những giới hạn về mặt toán học. Đây là lúc các kiến trúc mới như State Space Models (SSM), tiêu biểu là Mamba, xuất hiện để thách thức ngôi vương.

Sự thống trị và điểm yếu chí mạng của Transformer

Năm 2017, bài báo "Attention Is All You Need" của Google đã thay đổi mọi thứ. Transformer cho phép các mô hình AI hiểu được ngữ cảnh của một từ dựa trên tất cả các từ khác trong câu, bất kể khoảng cách.

Vấn đề chi phí bình phương (Quadratic Complexity)

Điểm yếu của cơ chế Self-Attention là khi độ dài chuỗi đầu vào ( $N$ ) tăng lên, khối lượng tính toán và bộ nhớ yêu cầu sẽ tăng theo bình phương ( $N^2$ ).

Nếu bạn tăng gấp đôi độ dài văn bản, chi phí tính toán tăng gấp bốn.
Nếu bạn muốn AI đọc cả một cuốn sách hay xem một bộ phim dài, lượng VRAM cần thiết trên GPU sẽ vượt quá khả năng của những hệ thống mạnh nhất hiện nay (như Blackwell ở Bài 2).

Điều này tạo ra một "bức tường" ngăn cản AI tiến tới việc xử lý các ngữ cảnh siêu dài (Long-context).

State Space Models (SSM): Cú lội ngược dòng của toán học cổ điển

Trong khi Transformer xử lý mọi thứ cùng lúc, State Space Models (SSM) quay lại với một tư duy giống như các mô hình tuần tự truyền thống nhưng được nâng cấp bằng toán học hiện đại.

Cấu trúc nén thông tin (State)

Thay vì phải nhìn lại toàn bộ các từ đã qua mỗi khi tạo ra từ mới, SSM duy trì một "trạng thái ẩn" (hidden state) cố định. Trạng thái này giống như một bản tóm tắt tinh gọn của tất cả các thông tin trước đó.

Ưu điểm: Chi phí tính toán của SSM chỉ tăng theo hàm tuyến tính ( $O(N)$ ). Nghĩa là nếu văn bản dài gấp đôi, máy tính chỉ cần làm việc gấp đôi, chứ không phải gấp bốn.
Hiệu quả: SSM có thể xử lý các chuỗi dữ liệu dài vô tận với lượng bộ nhớ không đổi.

Mamba: Kẻ thách thức tiềm năng nhất

Đột phá lớn nhất trong họ SSM chính là Mamba. Mô hình này giải quyết được bài toán lớn nhất của các SSM trước đây: khả năng chọn lọc thông tin.

Mamba sử dụng cơ chế "Selective SSM", cho phép mô hình tự quyết định thông tin nào đáng để giữ lại trong "trạng thái ẩn" và thông tin nào nên bỏ qua. Điều này giúp Mamba đạt được độ chính xác tương đương với Transformer trong khi vẫn giữ được tốc độ xử lý nhanh hơn từ 5 đến 10 lần ở các chuỗi dữ liệu dài.

Mở rộng chuyên sâu: 3 trụ cột trong sự giao thoa kiến trúc

Kiến trúc lai (Hybrid Architectures)

Thay vì thay thế hoàn toàn, xu hướng của năm 2026 là kết hợp cả hai. Các mô hình như Jamba (của AI21 Labs) sử dụng các lớp Transformer xen kẽ với các lớp Mamba. Transformer đảm nhận việc suy luận logic phức tạp trong phạm vi ngắn, còn Mamba đảm nhận việc duy trì trí nhớ dài hạn cho toàn bộ tài liệu.

Phần cứng tối ưu cho SSM

Mặc dù GPU hiện nay rất mạnh (Bài 2), nhưng chúng được tối ưu hóa cho các phép tính ma trận lớn của Transformer. Để SSM thực sự bùng nổ, chúng ta cần các nhân xử lý chuyên dụng (NPU - Bài 5) có khả năng xử lý các phép tính đệ quy nhanh hơn. NVIDIA và các hãng bán dẫn đang bắt đầu tích hợp các tập lệnh hỗ trợ SSM vào các dòng chip mới.

Tác động đến ứng dụng thực tế

Phân tích video: Thay vì chỉ nhìn từng đoạn ngắn, AI kiến trúc SSM có thể "xem" toàn bộ một bộ phim 2 tiếng và hiểu được mối liên hệ giữa cảnh đầu và cảnh cuối.
Phân tích bộ gen (Genomics): Chuỗi ADN là những chuỗi dữ liệu cực dài (Bài 29). SSM là công cụ hoàn hảo để đọc hiểu các mã di truyền mà không bị giới hạn bởi bộ nhớ máy tính.
Lập trình phần mềm: AI có thể đọc toàn bộ kho mã nguồn (Repository) hàng triệu dòng code để hiểu logic hệ thống thay vì chỉ đọc từng file riêng lẻ.

Tương lai: Sự hội tụ của các kiến trúc

Chúng ta đang rời bỏ kỷ nguyên "một kiến trúc cho tất cả". Tương lai của AI là sự linh hoạt. Các mô hình lớn sẽ tự động điều chỉnh kiến trúc tùy theo nhiệm vụ: dùng Transformer cho các câu đố logic ngắn và dùng SSM cho các dự án phân tích dữ liệu khổng lồ.

Việc hiểu sự chuyển dịch từ $N^2$ sang $O(N)$ không chỉ là một bài toán toán học; đó là chìa khóa để mở ra trí tuệ nhân tạo có khả năng hiểu biết sâu sắc và toàn diện như con người.