TỐI ƯU HÓA TRUYỀN TẢI DỮ LIỆU - GIẢI PHÁP GPUDIRECT STORAGE (GDS) CHO SPARK

Tác giả dangkhoa 06/04/2026 11 phút đọc

TỐI ƯU HÓA TRUYỀN TẢI DỮ LIỆU - GIẢI PHÁP GPUDIRECT STORAGE (GDS) CHO SPARK

Trong kỷ nguyên xử lý dữ liệu quy mô Petabyte, "tốc độ tính toán" của GPU đã vượt xa "tốc độ cung cấp dữ liệu" của hệ thống lưu trữ truyền thống. Khi bạn chạy Apache Spark trên một hệ thống siêu mạnh như NVIDIA DGX H100, nghịch lý thường xảy ra: GPU cực mạnh nhưng lại phải ngồi "chờ" dữ liệu được nạp vào. NVIDIA GPUDirect Storage (GDS) chính là chìa khóa để xóa bỏ rào cản này, thiết lập một đường truyền dữ liệu trực tiếp từ ổ cứng vào bộ nhớ đồ họa.

1. Vấn đề "Thuế CPU" (The CPU Tax) trong kiến trúc truyền thống

Để hiểu tại sao GDS lại quan trọng, chúng ta cần nhìn lại con đường di chuyển của một tệp dữ liệu (ví dụ Parquet) từ hệ thống lưu trữ đến GPU:

Bước 1: Dữ liệu được đọc từ ổ cứng (NVMe/Network Storage) vào bộ nhớ đệm của hệ điều hành (Kernel Buffer).
Bước 2: CPU phải can thiệp để sao chép dữ liệu từ Kernel Buffer sang bộ nhớ ứng dụng (User Space/RAM).
Bước 3: CPU tiếp tục thực hiện thêm một lần sao chép nữa để đẩy dữ liệu từ RAM sang bộ nhớ VRAM của GPU thông qua bus PCIe.

Hậu quả:

Quá tải CPU: CPU bị tiêu tốn chu kỳ xử lý chỉ để làm nhiệm vụ "người vận chuyển", thay vì tập trung vào logic của Spark.
Độ trễ cao: Việc sao chép qua lại nhiều bước (Bounce Buffer) tạo ra độ trễ không đáng có.
Nghẽn băng thông: RAM hệ thống trở thành nút thắt cổ chai khi phải điều tiết luồng dữ liệu khổng lồ cho 8 GPU cùng lúc.

2. GPUDirect Storage (GDS) là gì?

GDS là một công nghệ thuộc gia đình Magnum IO của NVIDIA. Nó cho phép thiết lập một kênh DMA (Direct Memory Access) trực tiếp giữa bộ nhớ GPU và hệ thống lưu trữ (NVMe cục bộ hoặc lưu trữ mạng qua chuẩn NVMe-oF).

2.1. Cơ chế hoạt động của GDS

Với GDS, bước trung gian qua CPU và RAM hệ thống bị loại bỏ hoàn toàn. Dữ liệu "bay" thẳng từ card mạng (NIC) hoặc ổ cứng NVMe vào VRAM.

Loại bỏ bản sao đệm (Bounce Buffers): Giảm tải 100% việc sao chép dữ liệu cho CPU.
Băng thông cực đại: Tận dụng tối đa tốc độ của các chuẩn kết nối như PCIe Gen5 và InfiniBand NDR.

3. Ứng dụng GDS vào Apache Spark trên hệ thống DGX

Khi tích hợp GDS vào cụm Spark GPU, quy trình xử lý dữ liệu lớn thay đổi một cách căn bản:

3.1. Tăng tốc giai đoạn "Scan" trong Spark SQL

Trong các câu lệnh SQL, bước đọc dữ liệu (Scan) thường chiếm tỷ trọng thời gian lớn. GDS giúp Spark nạp các bảng dữ liệu hàng tỷ dòng vào GPU nhanh hơn gấp 3-5 lần so với phương thức truyền thống.

Hiệu quả: Các tệp tin định dạng cột như Parquet được nạp trực tiếp vào bộ nhớ để thư viện cuDF xử lý ngay lập tức.

3.2. Tối ưu hóa Shuffle Service

Giai đoạn Shuffle yêu cầu ghi dữ liệu tạm xuống đĩa và đọc lại. GDS giúp quá trình đọc lại các "Shuffle Map Output" diễn ra ở tốc độ ánh sáng, giúp các phép toán

Join quy mô lớn trên DGX không còn bị nghẽn ở lớp I/O.

4. Yêu cầu hạ tầng để vận hành GDS thành công

GDS không phải là một phần mềm độc lập, nó yêu cầu sự đồng bộ về phần cứng (có sẵn trên DGX) và hệ thống lưu trữ ngoại vi:

4.1. Hệ thống lưu trữ tương thích (High-Performance Storage)

Để GDS phát huy tác dụng, hệ thống lưu trữ mạng của bạn phải hỗ trợ các giao thức như:

NVMe-over-Fabrics (NVMe-oF): Đặc biệt là qua InfiniBand hoặc RoCE.
NFS qua RDMA: Cho phép Spark truy cập dữ liệu trên các hệ thống NAS cao cấp với độ trễ cực thấp.

4.2. Cấu hình phần mềm trên DGX

Kỹ sư cần cài đặt gói mlnx-ofed và nvidia-gds trên hệ điều hành DGX OS. Sau đó, cấu hình trong Spark để kích hoạt Plugin RAPIDS hỗ trợ GDS thông qua tham số:

spark.rapids.gds.enabled=true

5. Phân tích hiệu năng: Con số không biết nói dối

Dưới đây là bảng so sánh hiệu suất nạp dữ liệu (Data Ingestion) trên hệ thống DGX H100:

Chỉ số	Truyền thống (CPU tham gia)	Sử dụng GPUDirect Storage	Cải thiện
Băng thông nạp dữ liệu	15 - 20 GB/s	40 - 50 GB/s (tối đa theo bus)	~2.5x
Tải CPU (CPU Utilization)	60 - 80% (chỉ để di chuyển dữ liệu)	< 5%	Giải phóng 95% CPU
Độ trễ truy xuất (Latency)	Cao (do nhiều bước Buffer)	Cực thấp (Direct Path)	Giảm 40% độ trễ
Thời gian hoàn thành Job Spark	100 phút	65 phút	Nhanh hơn 35%

6. Lợi ích chiến lược đối với hệ thống Data Lakehouse

Như đã thảo luận ở Bài 11, kiến trúc Lakehouse dựa trên việc truy vấn trực tiếp vào Hồ dữ liệu. GDS chính là mảnh ghép cuối cùng giúp Lakehouse trên DGX Spark có hiệu năng ngang ngửa, thậm chí vượt xa các kho dữ liệu (Warehouse) đắt tiền nhất.

Phân tích thời gian thực: Với GDS, dữ liệu từ các cảm biến IoT hoặc luồng giao dịch tài chính có thể được nạp và phân tích ngay lập tức mà không gặp bất kỳ rào cản nào về tốc độ truyền tải.
Tiết kiệm chi phí: Bằng cách giảm tải cho CPU, bạn có thể dành tài nguyên CPU đó cho các tác vụ logic phức tạp khác, tối ưu hóa hiệu suất trên mỗi Watt điện năng tiêu thụ.

7. Kết luận

GPUDirect Storage (GDS) là một cuộc cách mạng về I/O cho các hệ thống tính toán hiệu năng cao. Trong hệ sinh thái NVIDIA DGX và Spark, GDS đóng vai trò như một "ống dẫn dầu" khổng lồ, đảm bảo "động cơ" GPU luôn được cung cấp đủ dữ liệu để hoạt động ở công suất tối đa.

Việc làm chủ cấu hình GDS không chỉ là một kỹ thuật nâng cao, mà là yêu cầu bắt buộc đối với bất kỳ doanh nghiệp nào muốn khai thác 100% giá trị của siêu máy tính DGX cho bài toán Big Data.