Thu nhỏ trí tuệ nhân tạo (AI) cho điện thoại của bạn không phải là chuyện đơn giản.
→Bộ xử lý thần kinh (NPU) trong điện thoại của bạn có thể không hoạt động nhiều.
Hầu hết mọi đổi mới công nghệ trong vài năm qua đều tập trung vào một điều: trí tuệ nhân tạo tạo sinh (generative AI). Nhiều hệ thống được cho là mang tính cách mạng này hoạt động trên các máy chủ lớn, đắt tiền trong trung tâm dữ liệu ở đâu đó, nhưng đồng thời, các nhà sản xuất chip lại đang khoe khoang về sức mạnh của các bộ xử lý thần kinh (NPU) mà họ đã đưa vào các thiết bị tiêu dùng. Cứ vài tháng, lại lặp lại điều tương tự: NPU mới này nhanh hơn 30 hoặc 40% so với NPU trước đó. Điều đó được cho là cho phép bạn làm điều gì đó quan trọng, nhưng không ai thực sự giải thích điều đó là gì.
Các chuyên gia hình dung một tương lai với các công cụ AI cá nhân an toàn, tích hợp trí thông minh trên thiết bị, nhưng liệu điều đó có phù hợp với thực tế của sự bùng nổ AI? AI "trên thiết bị biên" nghe có vẻ tuyệt vời, nhưng hầu hết các công cụ AI quan trọng đều đang chạy trên đám mây. Vậy con chip trong điện thoại của bạn thực sự đang làm gì?
NPU là gì?
Các công ty khi ra mắt sản phẩm mới thường sa đà vào những lời lẽ khoa trương và ngôn từ tiếp thị mơ hồ, dẫn đến việc họ giải thích chi tiết kỹ thuật không tốt. Hầu hết người mua điện thoại không hiểu tại sao họ cần phần cứng để chạy các tác vụ trí tuệ nhân tạo, và những lợi ích được cho là mang lại phần lớn chỉ là lý thuyết.
Nhiều bộ vi xử lý tiêu dùng hàng đầu hiện nay là các hệ thống trên chip (SoC) vì chúng tích hợp nhiều thành phần tính toán—như lõi CPU, GPU và bộ điều khiển hình ảnh—trên một mảnh silicon duy nhất. Điều này đúng với các linh kiện di động như Snapdragon của Qualcomm hoặc Tensor của Google, cũng như các linh kiện máy tính cá nhân như Intel Core Ultra.
NPU là một thành phần mới được bổ sung vào chip, nhưng nó không xuất hiện một cách đột ngột mà có cả một lịch sử phát triển dẫn đến đây. NPU hoạt động hiệu quả vì chúng tập trung vào điện toán song song, một yếu tố cũng rất quan trọng trong các thành phần khác của SoC.
Qualcomm dành một lượng thời gian đáng kể trong các buổi giới thiệu sản phẩm mới để nói về bộ xử lý thần kinh Hexagon NPU của mình. Những người quan sát tinh ý có thể nhớ rằng thương hiệu này đã được tái sử dụng từ dòng bộ xử lý tín hiệu số (DSP) của công ty, và có lý do chính đáng cho điều đó.
“Hành trình của chúng tôi vào lĩnh vực xử lý AI có lẽ bắt đầu cách đây 15 hoặc 20 năm, điểm khởi đầu đầu tiên là nghiên cứu xử lý tín hiệu,” Vinesh Sukumar, người đứng đầu bộ phận sản phẩm AI của Qualcomm, cho biết. DSP có kiến trúc tương tự như NPU, nhưng đơn giản hơn nhiều, tập trung vào xử lý âm thanh (ví dụ: nhận dạng giọng nói) và tín hiệu modem.
→NPU là một trong nhiều thành phần trong các SoC hiện đại.
Khi tập hợp các công nghệ mà chúng ta gọi là “trí tuệ nhân tạo” phát triển, các kỹ sư bắt đầu sử dụng DSP cho nhiều loại xử lý song song hơn, chẳng hạn như bộ nhớ dài hạn ngắn hạn (LSTM). Sukumar giải thích rằng khi ngành công nghiệp trở nên say mê với mạng nơ-ron tích chập (CNN), công nghệ nền tảng của các ứng dụng như thị giác máy tính, DSP đã tập trung vào các hàm ma trận, vốn cũng rất cần thiết cho quá trình xử lý AI tạo sinh.
Mặc dù có sự kế thừa về kiến trúc, nhưng nói rằng NPU chỉ là những bộ xử lý tín hiệu số (DSP) được nâng cấp thì không hoàn toàn chính xác. “Nếu nói về DSP theo nghĩa thông thường, thì đúng là NPU là bộ xử lý tín hiệu số,” Phó Chủ tịch MediaTek, Mark Odani, cho biết. “Nhưng công nghệ này đã tiến bộ rất nhiều và được tối ưu hóa hơn cho khả năng xử lý song song, cách thức hoạt động của các bộ biến đổi và khả năng lưu trữ số lượng lớn tham số.”
Mặc dù đóng vai trò nổi bật trong các chip mới, NPU không thực sự cần thiết để chạy các tác vụ AI ở "vùng biên", thuật ngữ dùng để phân biệt xử lý AI cục bộ với các hệ thống dựa trên đám mây. CPU chậm hơn NPU nhưng có thể xử lý một số tác vụ nhẹ mà không tiêu tốn nhiều điện năng. Trong khi đó, GPU thường có thể xử lý nhiều dữ liệu hơn NPU, nhưng chúng lại tiêu tốn nhiều điện năng hơn. Và theo Sukumar của Qualcomm, có những lúc bạn muốn làm như vậy. Ví dụ, chạy các tác vụ AI trong khi chơi game có thể ưu tiên GPU. “Ở đây, thước đo thành công của bạn là bạn không được làm giảm tốc độ khung hình trong khi vẫn duy trì độ phân giải không gian, dải động của pixel, và đồng thời có thể cung cấp các đề xuất AI cho người chơi trong không gian đó,” Sukumar nói. “Trong trường hợp sử dụng này, việc chạy nó trong công cụ đồ họa thực sự có ý nghĩa, bởi vì khi đó bạn không phải liên tục chuyển đổi giữa đồ họa và một công cụ AI chuyên dụng như NPU.”
Sống mạo hiểm thật khó khăn.
Thật không may, các bộ xử lý thần kinh (NPU) trong nhiều thiết bị thường xuyên ở trạng thái nh闲 rỗi (và không chỉ trong khi chơi game). Sự kết hợp giữa các công cụ AI cục bộ và đám mây nghiêng về phía sau vì đó là môi trường tự nhiên của các mô hình học máy cấp thấp (LLM). Các mô hình AI được huấn luyện và tinh chỉnh trên các máy chủ mạnh mẽ, và đó là nơi chúng hoạt động tốt nhất.
Trí tuệ nhân tạo (AI) dựa trên máy chủ, như các phiên bản đầy đủ tính năng của Gemini và ChatGPT, không bị hạn chế về tài nguyên như mô hình chạy trên bộ xử lý thần kinh (NPU) của điện thoại. Hãy xem xét phiên bản mới nhất của mô hình Gemini Nano trên thiết bị của Google, có cửa sổ ngữ cảnh 32.000 token. Đó là sự cải thiện hơn gấp đôi so với phiên bản trước. Tuy nhiên, các mô hình Gemini dựa trên đám mây có cửa sổ ngữ cảnh lên đến 1 triệu token, nghĩa là chúng có thể xử lý khối lượng dữ liệu lớn hơn nhiều.
Cả phần cứng AI dựa trên đám mây và phần cứng AI biên sẽ tiếp tục được cải thiện, nhưng cán cân có thể không nghiêng về phía NPU. “Đám mây sẽ luôn có nhiều tài nguyên tính toán hơn so với thiết bị di động,” Shenaz Zack của Google, quản lý sản phẩm cấp cao trong nhóm Pixel, cho biết.
“Nếu bạn muốn những mô hình chính xác nhất hoặc những mô hình mạnh mẽ nhất, tất cả đều phải được thực hiện trên đám mây,” Odani nói. “Nhưng điều chúng tôi nhận thấy là, trong nhiều trường hợp sử dụng chỉ đơn giản là tóm tắt một đoạn văn bản hoặc bạn đang nói chuyện với trợ lý giọng nói của mình, rất nhiều thứ trong số đó có thể nằm trong phạm vi ba tỷ tham số.”
Việc thu nhỏ các mô hình AI lên điện thoại hoặc máy tính xách tay đòi hỏi một số sự thỏa hiệp—ví dụ, bằng cách giảm số lượng tham số được bao gồm trong mô hình. Odani giải thích rằng các mô hình dựa trên đám mây xử lý hàng trăm tỷ tham số, trọng số quyết định cách mô hình xử lý các mã thông báo đầu vào để tạo ra đầu ra. Bạn không thể chạy bất cứ thứ gì như vậy trên thiết bị tiêu dùng hiện nay, vì vậy các nhà phát triển phải giảm đáng kể kích thước của các mô hình cho thiết bị biên. Odani cho biết NPU thế hệ thứ chín mới nhất của MediaTek có thể xử lý khoảng 3 tỷ tham số—một sự khác biệt về quy mô.
Dung lượng bộ nhớ khả dụng trên điện thoại hoặc máy tính xách tay cũng là một yếu tố hạn chế, vì vậy các mô hình AI được tối ưu hóa cho thiết bị di động thường được lượng tử hóa. Điều đó có nghĩa là ước tính của mô hình về token tiếp theo chạy với độ chính xác thấp hơn. Giả sử bạn muốn chạy một trong những mô hình mã nguồn mở lớn hơn, như Llama hoặc Gemma 7b, trên thiết bị của mình. Tiêu chuẩn thực tế là FP16, được gọi là độ chính xác một nửa. Ở mức đó, một mô hình với 7 tỷ tham số sẽ chiếm dụng 13 hoặc 14 gigabyte bộ nhớ. Giảm xuống FP4 (độ chính xác một phần tư) sẽ đưa kích thước của mô hình trong bộ nhớ xuống còn vài gigabyte.
“Khi bạn nén xuống còn khoảng từ ba đến bốn gigabyte, đó là kích thước lý tưởng để tích hợp vào các thiết bị có bộ nhớ hạn chế như điện thoại thông minh,” Sukumar nói. “Và đã có rất nhiều đầu tư vào hệ sinh thái và tại Qualcomm để nghiên cứu nhiều cách khác nhau nhằm nén các mô hình mà không làm giảm chất lượng.”
Với những hạn chế này, việc tạo ra một trí tuệ nhân tạo tổng quát cho thiết bị di động là rất khó, nhưng máy tính—đặc biệt là điện thoại thông minh—lại là nguồn dữ liệu dồi dào có thể được đưa vào các mô hình để tạo ra những kết quả được cho là hữu ích. Đó là lý do tại sao hầu hết trí tuệ nhân tạo biên (edge AI) đều hướng đến các trường hợp sử dụng cụ thể, hẹp, chẳng hạn như phân tích ảnh chụp màn hình hoặc đề xuất lịch hẹn. Google cho biết các điện thoại Pixel mới nhất của họ chạy hơn 100 mô hình AI, cả tạo sinh và truyền thống.
Ngay cả những người hoài nghi về AI cũng phải thừa nhận rằng lĩnh vực này đang thay đổi nhanh chóng. Trong thời gian cần thiết để thu nhỏ và tối ưu hóa các mô hình AI cho điện thoại hoặc máy tính xách tay, các mô hình đám mây mới có thể xuất hiện và khiến công việc đó trở nên lỗi thời. Đây cũng là lý do tại sao các nhà phát triển bên thứ ba chậm chạp trong việc sử dụng xử lý NPU trong ứng dụng. Họ hoặc phải tích hợp vào một mô hình hiện có trên thiết bị, điều này liên quan đến những hạn chế và mục tiêu phát triển thay đổi nhanh chóng , hoặc phải triển khai các mô hình tùy chỉnh của riêng họ. Hiện tại, cả hai đều không phải là lựa chọn tối ưu.
Vấn đề lòng tin
Nếu điện toán đám mây nhanh hơn và dễ sử dụng hơn, tại sao lại phải tốn công tối ưu hóa cho điện toán biên và tiêu tốn nhiều năng lượng hơn với bộ xử lý thần kinh (NPU)? Dựa vào điện toán đám mây đồng nghĩa với việc chấp nhận mức độ phụ thuộc và tin tưởng vào những người vận hành trung tâm dữ liệu AI mà không phải lúc nào cũng phù hợp.
“Chúng tôi luôn đặt quyền riêng tư của người dùng lên hàng đầu,” ông Sukumar của Qualcomm cho biết. Ông giải thích rằng suy luận tốt nhất không mang tính tổng quát mà được cá nhân hóa dựa trên sở thích của người dùng và những gì đang diễn ra trong cuộc sống của họ. Việc tinh chỉnh các mô hình để mang lại trải nghiệm đó đòi hỏi dữ liệu cá nhân, và việc lưu trữ và xử lý dữ liệu đó cục bộ sẽ an toàn hơn.
Ngay cả khi các công ty nói những điều đúng đắn về quyền riêng tư trong dịch vụ đám mây của họ, thì điều đó vẫn chưa đảm bảo tuyệt đối. Sự thân thiện, hữu ích của các chatbot thông thường cũng khuyến khích mọi người tiết lộ nhiều thông tin cá nhân, và nếu trợ lý ảo đó đang hoạt động trên đám mây, dữ liệu của bạn cũng sẽ được lưu trữ ở đó. Cuộc chiến bản quyền giữa OpenAI và tờ New York Times có thể dẫn đến việc hàng triệu cuộc trò chuyện riêng tư bị chuyển giao cho nhà xuất bản. Sự phát triển bùng nổ và khung pháp lý không chắc chắn của trí tuệ nhân tạo thế hệ mới khiến việc biết điều gì sẽ xảy ra với dữ liệu của bạn trở nên khó khăn.
“Mọi người đang sử dụng rất nhiều trợ lý AI tạo sinh này như một nhà trị liệu,” Odani nói. “Và bạn không biết liệu một ngày nào đó tất cả những thứ này có bị lộ ra trên Internet hay không.”
Không phải ai cũng lo ngại như vậy. Zack khẳng định Google đã xây dựng “cơ sở hạ tầng đám mây an toàn nhất thế giới”, cho phép họ xử lý dữ liệu ở nơi mang lại kết quả tốt nhất. Zack sử dụng Video Boost và Pixel Studio làm ví dụ cho cách tiếp cận này, lưu ý rằng đám mây của Google là cách duy nhất để tạo ra những trải nghiệm nhanh chóng và chất lượng cao. Công ty gần đây đã công bố hệ thống Private AI Compute mới, mà họ tuyên bố là an toàn như AI cục bộ .
Ngay cả khi điều đó đúng, AI biên vẫn có những lợi thế khác—AI biên đáng tin cậy hơn dịch vụ đám mây. “Trực tiếp trên thiết bị rất nhanh,” Odani nói. “Đôi khi tôi đang nói chuyện với ChatGPT và Wi-Fi của tôi bị mất kết nối hoặc gì đó, và nó bị gián đoạn.”
Các dịch vụ lưu trữ mô hình AI dựa trên đám mây không chỉ là một trang web duy nhất—Internet ngày nay phụ thuộc lẫn nhau rất nhiều, với các mạng phân phối nội dung, nhà cung cấp DNS, dịch vụ lưu trữ và các dịch vụ khác có thể làm suy giảm hoặc tắt AI yêu thích của bạn nếu xảy ra sự cố. Khi Cloudflare gặp sự cố ngừng hoạt động do chính mình gây ra gần đây, người dùng ChatGPT đã rất khó chịu khi thấy chatbot đáng tin cậy của họ không khả dụng. Các tính năng AI cục bộ không có nhược điểm đó.
Sự thống trị của mây
Mọi người dường như đều đồng ý rằng cần có một phương pháp kết hợp để cung cấp các tính năng AI thực sự hữu ích (giả sử những tính năng đó tồn tại), gửi dữ liệu đến các dịch vụ đám mây mạnh mẽ hơn khi cần thiết—Google, Apple và mọi nhà sản xuất điện thoại khác đều làm điều này. Nhưng việc theo đuổi trải nghiệm liền mạch cũng có thể che khuất những gì đang xảy ra với dữ liệu của bạn. Thông thường, các tính năng AI trên điện thoại của bạn không chạy một cách an toàn, cục bộ, ngay cả khi thiết bị có phần cứng để làm điều đó.
Lấy ví dụ chiếc OnePlus 15 mới . Chiếc điện thoại này sở hữu chip Snapdragon 8 Elite Gen 5 hoàn toàn mới của Qualcomm, với bộ xử lý NPU nhanh hơn 37% so với thế hệ trước, dù con số đó có ý nghĩa như thế nào đi nữa. Ngay cả với sức mạnh AI tích hợp trên thiết bị, OnePlus vẫn phụ thuộc rất nhiều vào điện toán đám mây để phân tích dữ liệu cá nhân của bạn. Các tính năng như AI Writer và AI Recorder kết nối với máy chủ của công ty để xử lý, một hệ thống mà OnePlus đảm bảo là hoàn toàn an toàn và bảo mật.
Tương tự, Motorola đã ra mắt dòng điện thoại gập Razr mới vào mùa hè vừa qua, tích hợp nhiều tính năng AI từ nhiều nhà cung cấp. Những chiếc điện thoại này có thể tóm tắt thông báo của bạn bằng AI, nhưng bạn có thể ngạc nhiên khi biết phần lớn quá trình này diễn ra trên đám mây nếu chưa đọc kỹ điều khoản và điều kiện sử dụng. Nếu bạn mua Razr Ultra, việc tóm tắt sẽ diễn ra trên điện thoại của bạn. Tuy nhiên, các mẫu rẻ hơn với RAM và sức mạnh xử lý NPU thấp hơn sẽ sử dụng dịch vụ đám mây để xử lý thông báo. Motorola khẳng định hệ thống này an toàn, nhưng một lựa chọn an toàn hơn nữa là tối ưu hóa lại mô hình cho các dòng điện thoại giá rẻ hơn.
Ngay cả khi nhà sản xuất thiết bị gốc (OEM) tập trung vào việc sử dụng phần cứng NPU, kết quả vẫn có thể không như mong muốn. Hãy xem Daily Hub của Google và Now Brief của Samsung. Các tính năng này được cho là sẽ xử lý tất cả dữ liệu trên điện thoại của bạn và tạo ra các đề xuất và hành động hữu ích, nhưng chúng hiếm khi làm được gì ngoài việc hiển thị các sự kiện trên lịch. Trên thực tế, Google đã tạm thời loại bỏ Daily Hub khỏi Pixel vì tính năng này hoạt động quá ít, và Google là một trong những người tiên phong về trí tuệ nhân tạo cục bộ với Gemini Nano. Google thực tế đã chuyển một số phần trải nghiệm trí tuệ nhân tạo trên thiết bị di động của mình từ xử lý cục bộ sang xử lý dựa trên đám mây trong những tháng gần đây.
Các mô hình "thô bạo" dường như đang thắng thế, và việc các công ty thu thập được nhiều dữ liệu hơn khi bạn tương tác với các dịch vụ điện toán đám mây riêng của họ cũng là một lợi thế.
Có lẽ nên chấp nhận những gì mình có được?
Có rất nhiều sự quan tâm đến AI cục bộ, nhưng cho đến nay, điều đó vẫn chưa dẫn đến một cuộc cách mạng AI trong tầm tay bạn. Hầu hết các tiến bộ về AI mà chúng ta đã thấy cho đến nay đều phụ thuộc vào quy mô ngày càng tăng của các hệ thống đám mây và các mô hình tổng quát chạy trên đó. Các chuyên gia trong ngành cho biết, công việc nghiên cứu sâu rộng đang được tiến hành để thu nhỏ các mô hình AI sao cho hoạt động được trên điện thoại và máy tính xách tay, nhưng sẽ cần thời gian để điều đó tạo ra tác động thực sự.
Trong khi đó, khả năng xử lý AI cục bộ vẫn còn hạn chế. Google vẫn sử dụng Tensor NPU để xử lý dữ liệu nhạy cảm cho các tính năng như Magic Cue, và Samsung thực sự tận dụng tối đa các chipset tập trung vào AI của Qualcomm. Mặc dù Now Brief có tính hữu dụng đáng ngờ, Samsung nhận thức được việc phụ thuộc vào điện toán đám mây có thể ảnh hưởng đến người dùng như thế nào, vì vậy họ cung cấp một tùy chọn trong cài đặt hệ thống để hạn chế quá trình xử lý AI chỉ chạy trên thiết bị. Điều này giới hạn số lượng tính năng AI có sẵn, và một số tính năng khác hoạt động không tốt, nhưng bạn sẽ biết rằng không có dữ liệu cá nhân nào của bạn được chia sẻ. Không có hãng nào khác cung cấp tùy chọn này trên điện thoại thông minh.
→Samsung cung cấp một tùy chọn dễ sử dụng để tắt AI đám mây và chạy tất cả các tác vụ trên thiết bị.
Người phát ngôn của Samsung, Elise Sembach, cho biết những nỗ lực về trí tuệ nhân tạo (AI) của công ty dựa trên việc nâng cao trải nghiệm người dùng đồng thời vẫn duy trì quyền kiểm soát. “Công tắc xử lý trên thiết bị trong giao diện One UI phản ánh cách tiếp cận này. Nó cho phép người dùng tùy chọn xử lý các tác vụ AI cục bộ để có hiệu suất nhanh hơn, bảo mật tốt hơn và độ tin cậy cao hơn ngay cả khi không có kết nối mạng”, Sembach nói.
Việc quan tâm đến AI biên có thể là một điều tốt ngay cả khi bạn không sử dụng nó. Lập kế hoạch cho tương lai giàu AI này có thể khuyến khích các nhà sản xuất thiết bị đầu tư vào phần cứng tốt hơn—chẳng hạn như nhiều bộ nhớ hơn để chạy tất cả các mô hình AI lý thuyết đó.
“Chúng tôi chắc chắn khuyên các đối tác nên tăng dung lượng RAM,” Sukumar nói. Thật vậy, Google, Samsung và các công ty khác đã tăng dung lượng bộ nhớ phần lớn để hỗ trợ AI trên thiết bị. Ngay cả khi điện toán đám mây đang chiếm ưu thế, chúng ta vẫn sẽ chọn RAM bổ sung.