CHIP XỬ LÝ THẦN KINH (NPU): KHI MỌI THIẾT BỊ ĐỀU SỞ HỮU "BỘ NÃO" AI RIÊNG BIỆT
CHIP XỬ LÝ THẦN KINH (NPU): KHI MỌI THIẾT BỊ ĐỀU SỞ HỮU "BỘ NÃO" AI RIÊNG BIỆT
Trong nhiều thập kỷ, bộ vi xử lý trung tâm (CPU) và bộ xử lý đồ họa (GPU) là hai trụ cột duy nhất điều hành máy tính. CPU giỏi xử lý các tác vụ logic phức tạp và tuần tự, trong khi GPU là bậc thầy về tính toán song song cho đồ họa và đào tạo AI. Tuy nhiên, sự bùng nổ của trí tuệ nhân tạo tạo sinh đã khai sinh ra một thực thể thứ ba: NPU (Neural Processing Unit). Đây là một con chip được thiết kế chuyên biệt để mô phỏng cách bộ não con người hoạt động, giúp các tác vụ AI chạy nhanh hơn, mát hơn và tiết kiệm pin hơn gấp nhiều lần.
Tại sao chúng ta cần NPU khi đã có CPU và GPU?
Câu trả lời nằm ở sự chuyên môn hóa. Hãy tưởng tượng CPU giống như một giáo sư đa năng có thể giải mọi bài toán, GPU giống như một đội ngũ công nhân đông đảo làm việc cùng lúc, còn NPU là một dây chuyền tự động hóa chỉ làm đúng một việc: xử lý các phép toán ma trận và tích chập (convolutional) của mạng nơ-ron.
Các tác vụ AI như nhận diện khuôn mặt, làm mờ hậu cảnh khi gọi video, hay dịch ngôn ngữ thời gian thực yêu cầu hàng tỷ phép tính đơn giản nhưng lặp đi lặp lại. Nếu bắt CPU làm, nó sẽ quá tải và nóng máy. Nếu bắt GPU làm, nó sẽ tiêu tốn quá nhiều điện năng. NPU ra đời để giải quyết "điểm ngọt" này: hiệu năng AI cực cao với mức tiêu thụ năng lượng cực thấp.
Kiến trúc đặc thù: Mô phỏng mạng nơ-ron nhân tạo
Sức mạnh của NPU không nằm ở tốc độ xung nhịp (GHz) mà nằm ở chỉ số TOPS (Tera Operations Per Second) – hàng nghìn tỷ phép tính mỗi giây.
Mảng tích lũy nhân (MAC - Multiply-Accumulate) Lõi của NPU là hàng nghìn đơn vị MAC. Trong mạng nơ-ron, hầu hết các tính toán là nhân các trọng số (weights) với dữ liệu đầu vào. NPU được thiết kế để thực hiện các phép tính này trong một chu kỳ xung nhịp duy nhất, giúp xử lý dữ liệu với băng thông cực lớn.
Bộ nhớ đệm gần lõi (SRAM nội bộ) Dữ liệu AI rất "nặng" khi di chuyển. Để tránh nghẽn cổ chai, NPU thường có các bộ nhớ đệm cực nhanh nằm ngay sát nhân xử lý. Điều này giúp giảm thiểu việc truy cập vào RAM hệ thống, từ đó tiết kiệm năng lượng đáng kể – yếu tố sống còn cho các thiết bị di động như iPhone hay laptop mỏng nhẹ.
Cuộc đua trang bị NPU: Từ Apple, Qualcomm đến Intel
Hiện nay, cuộc đua công nghệ không còn là ai có CPU nhiều nhân hơn, mà là ai có NPU mạnh hơn để chạy được các mô hình ngôn ngữ lớn (LLM) ngay trên máy.
Apple Neural Engine (ANE) Apple là người tiên phong khi đưa NPU vào chip A11 Bionic từ năm 2017. Đến nay, ANE trên chip M4 và A18 Pro đã đạt mức hiệu năng kinh ngạc, cho phép iPhone xử lý các tác vụ như tách chủ thể khỏi ảnh hay Siri thông minh hơn mà không cần gửi dữ liệu về máy chủ Apple.
Qualcomm Hexagon và kỷ nguyên AI PC Với dòng chip Snapdragon X Elite, Qualcomm đã làm rung chuyển thị trường laptop khi ra mắt NPU có sức mạnh lên tới 45 TOPS. Đây là tiêu chuẩn vàng để Microsoft cấp chứng nhận "Copilot+ PC", cho phép Windows chạy các tính năng AI như Recall hay dịch phụ đề trực tiếp (Live Captions) hoàn toàn bằng phần cứng tại chỗ.
Intel và AMD: Sự chuyển mình của những gã khổng lồ x86 Intel với dòng Core Ultra (Lunar Lake) và AMD với Ryzen AI đã tích hợp NPU vào kiến trúc truyền thống. Họ hiểu rằng nếu không có NPU, những chiếc máy tính chạy x86 sẽ sớm lỗi thời trước làn sóng AI PC.
Ứng dụng thực tế: Khi AI không còn cần Internet
Lợi ích lớn nhất của NPU là đưa AI từ "đám mây" (Cloud) về "biên" (Edge - thiết bị của bạn). Điều này mang lại ba lợi ích cốt lõi:
Quyền riêng tư tuyệt đối: Dữ liệu cá nhân, hình ảnh và giọng nói của bạn được xử lý ngay trên chip, không bao giờ rời khỏi thiết bị. Điều này loại bỏ nỗi lo rò rỉ thông tin cá nhân trên mạng.
Tốc độ phản hồi tức thì: Bạn không còn phải chờ đợi độ trễ từ máy chủ. Các tác vụ như xóa vật thể trong ảnh hay tạo văn bản diễn ra ngay lập tức.
Tiết kiệm năng lượng: NPU có thể thực hiện cùng một tác vụ AI với mức tiêu thụ điện chỉ bằng 1/10 so với GPU, giúp thời lượng pin của laptop AI có thể kéo dài lên tới 20-22 tiếng.
Thách thức: Phần mềm và sự phân mảnh
Dù phần cứng NPU đang phát triển thần tốc, nhưng phần mềm vẫn là một rào cản lớn. Không giống như GPU có các tiêu chuẩn chung như CUDA hay OpenCL, mỗi hãng sản xuất NPU lại có một bộ công cụ lập trình riêng (SDK).
Để một ứng dụng như Adobe Photoshop có thể tận dụng NPU của cả chip Intel, Apple và Qualcomm là một bài toán tối ưu hóa vô cùng phức tạp cho các lập trình viên. Tuy nhiên, các tiêu chuẩn như ONNX hay DirectML của Microsoft đang dần thống nhất sân chơi này, giúp AI trở nên phổ cập hơn.
Tương lai: Khi NPU trở thành trung tâm của máy tính
Trong 5 năm tới, NPU sẽ không còn là một bộ phận bổ trợ mà có thể trở thành thành phần chiếm diện tích lớn nhất trên tấm silicon của chip. Chúng ta đang tiến tới kỷ nguyên mà hệ điều hành sẽ được điều hành bởi AI: từ việc quản lý pin, bảo mật cho đến giao tiếp người-máy đều qua NPU.
Sự trỗi dậy của NPU đánh dấu một bước ngoặt: Máy tính không còn chỉ là công cụ tính toán khô khan, nó đang thực sự trở thành một người cộng sự có khả năng hiểu, nghe và nhìn theo cách của con người.
Chỉ số TOPS và khoảng cách đến hiệu năng thực tế
Trong các buổi ra mắt sản phẩm, chúng ta thường nghe các con số như 10, 40 hay thậm chí là 50 TOPS. Tuy nhiên, trong thế giới kỹ thuật, TOPS (Tera Operations Per Second) chỉ là chỉ số năng lực tính toán lý tưởng, giống như việc đo tốc độ tối đa của một chiếc xe đua trên lý thuyết mà chưa tính đến ma sát hay khúc cua.
Sự khác biệt giữa lý thuyết và thực thi Hiệu năng AI thực tế phụ thuộc vào việc mô hình AI đó được tối ưu hóa như thế nào cho tập lệnh của NPU. Nếu một mô hình ngôn ngữ lớn (LLM) không được chuyển đổi (quantization) đúng cách để chạy trên định dạng INT8 hoặc FP16 của NPU, con chip sẽ phải chuyển tác vụ đó sang GPU hoặc CPU, dẫn đến sụt giảm hiệu năng nghiêm trọng.
Băng thông bộ nhớ: Nút thắt cổ chai thực sự Dù NPU có thể tính toán hàng tỷ phép tính mỗi giây, nhưng nếu dữ liệu không được nạp vào đủ nhanh từ RAM, NPU sẽ rơi vào trạng thái "đói dữ liệu" (Data Starvation). Đây là lý do tại sao các chip có NPU mạnh thường đi kèm với chuẩn RAM LPDDR5x mới nhất. Một hệ thống có 45 TOPS nhưng băng thông bộ nhớ hẹp sẽ hoạt động kém hơn một hệ thống 30 TOPS có đường truyền dữ liệu thông thoáng.
2. NPU trên thiết bị cá nhân vs. Tensor Cores trên GPU máy chủ
Nhiều người thắc mắc: "Nếu NVIDIA đã có Tensor Cores cực mạnh, tại sao chúng ta vẫn cần NPU?". Câu trả lời nằm ở mục đích sử dụng và kiến trúc năng lượng.
Kiến trúc Tensor Cores: Sức mạnh hủy diệt Tensor Cores bên trong các GPU như H100 hay Blackwell (Bài 2) được thiết kế cho các tác vụ "khổng lồ". Chúng ưu tiên độ chính xác cao và khả năng xử lý song song ở quy mô hàng vạn nhân. Tuy nhiên, Tensor Cores tiêu tốn năng lượng rất lớn và tỏa nhiệt kinh khủng. Đây là giải pháp cho việc huấn luyện (Training) các mô hình AI.
NPU: Nghệ thuật của sự tinh tế Ngược lại, NPU được thiết kế cho việc suy luận (Inference). Khi bạn yêu cầu AI tóm tắt một văn bản hoặc xóa phông một tấm ảnh, đó là quá trình suy luận. NPU sử dụng các kiến trúc dòng chảy dữ liệu (Dataflow architecture) cho phép dữ liệu đi qua các lớp nơ-ron mà không cần phải truy xuất vào bộ nhớ chính liên tục. Điều này giúp NPU có hiệu suất sử dụng năng lượng (Performance per Watt) vượt trội so với Tensor Cores trong các tác vụ hằng ngày.
[Image comparison between NVIDIA Tensor Core and Mobile NPU architecture]
3. Tác động của NPU đến ngành công nghiệp RAM và lưu trữ
Sự xuất hiện của NPU đang buộc toàn bộ hệ sinh thái phần cứng phải thay đổi theo. AI PC không chỉ là một chiếc laptop có chip mới, nó là một chiếc laptop có cấu trúc bộ nhớ mới.
Cuộc đua dung lượng RAM tối thiểu Các mô hình AI khi chạy tại chỗ (Local AI) yêu cầu phải nạp toàn bộ các trọng số (weights) của mô hình vào RAM. Ví dụ, một mô hình ngôn ngữ Llama-3 (8B tham số) sau khi nén có thể chiếm từ 5GB đến 8GB RAM chỉ để "nằm chờ". Nếu máy tính của bạn chỉ có 8GB RAM, hệ điều hành sẽ gần như tê liệt. Đây là lý do Microsoft và các hãng sản xuất đang thiết lập mức 16GB RAM là tiêu chuẩn tối thiểu cho kỷ nguyên AI, và 32GB mới là mức "khuyên dùng".
Tốc độ RAM trở nên quan trọng hơn bao giờ hết Không chỉ dung lượng, mà tốc độ RAM (tính bằng MT/s) cũng ảnh hưởng trực tiếp đến tốc độ phản hồi của AI. Các chuẩn như CAMM2 (mô-đun bộ nhớ mới) đang được thúc đẩy để thay thế SO-DIMM truyền thống nhằm tăng băng thông dữ liệu cho NPU.
Lưu trữ tốc độ cao (Gen 5 SSD) Khi bạn khởi chạy một ứng dụng AI, hàng gigabyte dữ liệu mô hình cần được đẩy từ SSD vào RAM trong tích tắc. Điều này thúc đẩy nhu cầu về các dòng SSD PCIe Gen 5 với tốc độ đọc lên tới 10,000 MB/s. NPU vô tình trở thành "cú hích" kinh tế cho toàn bộ chuỗi cung ứng linh kiện máy tính.