"Hộp thần bộ nhớ" có thể là giải pháp cứu cánh trước cuộc khủng hoảng RAM

Trong bối cảnh thiếu hụt DRAM nghiêm trọng do sự bùng nổ của AI, công nghệ Compute Express Link (CXL) và các thiết bị "memory godbox" đang nổi lên như một giải pháp tiềm năng để gộp và chia sẻ bộ nhớ giữa các máy chủ. Bài viết phân tích sự tiến hóa của CXL, khả năng mở rộng bộ nhớ và tác động của nhu cầu AI đối với thị trường DRAM trong tương lai.

Trong các trung tâm dữ liệu hiện đại, bộ lưu trữ có thể tồn tại ở bất cứ đâu — tại máy cục bộ, truy cập từ xa qua mạng hoặc được chia sẻ giữa các hệ thống. Thế hệ máy chủ tiếp theo sẽ xử lý bộ nhớ hệ thống theo cách tương tự. Các hệ thống này vẫn sẽ có một lượng DDR5 cục bộ, nhưng phần lớn sẽ được truy cập từ xa từ những thiết bị mà một số người gọi là "hộp thần bộ nhớ" (memory godbox).

Sự thiếu hụt DRAM kéo dài đã tạo ra một "cơn bão hoàn hảo" cho sự phổ biến của các thiết bị này. Chúng không chỉ cho phép gộp bộ nhớ mà còn cho phép dữ liệu lưu trữ trong bộ nhớ đó được chia sẻ đồng thời bởi nhiều máy. Về hiệu quả, bộ nhớ trở thành một nguồn tài nguyên có thể thay thế linh hoạt.

Điều quan trọng hơn là vòng máy chủ tiếp theo của bạn có thể sẽ hỗ trợ công nghệ này, nếu chúng chưa hỗ trợ rồi.

CXL: Thời điểm tỏa sáng

Công nghệ cốt lõi của các "hộp thần bộ nhớ" này không phải là mới. Compute Express Link (CXL) đã dần thu hút sự chú ý kể từ khi được giới thiệu bảy năm trước.

Để tóm tắt nhanh, CXL định nghĩa một giao diện đồng bộ bộ nhớ đệm (cache-coherent) chung để kết nối CPU, bộ nhớ, bộ tăng tốc và các thiết bị ngoại vi khác.

Công nghệ này có một vài biến thể khác nhau: CXL.mem, CXL.cache và CXL.io. Nhìn chung, chúng có ý nghĩa đối với mô hình tính toán tách rời (disaggregated compute). Hãy tưởng tượng một rack có nút CPU, nút GPU, nút bộ nhớ và nút lưu trữ, tất cả có thể giao tiếp với nhau hoàn toàn độc lập. Đó là ý tưởng cốt lõi đằng sau CXL.

CXL dựa trên tiêu chuẩn PCIe, điều này có nghĩa là về lý thuyết nó nên tương thích rộng rãi, nhưng cho đến nay, nó chủ yếu được sử dụng với các thiết bị bộ nhớ.

Thông số 1.0 đã mở đường cho các mô-đun mở rộng bộ nhớ, cho phép bạn thêm nhiều bộ nhớ hơn bằng cách lắp chúng vào khe cắm PCIe tương thích CXL. Đối với hệ điều hành — giả sử bạn đang chạy Linux — bộ nhớ thêm này phần lớn là trong suốt, hiển thị như thể nó được gắn vào một socket CPU khác, chỉ là socket đó không có thêm sức mạnh tính toán nào.

Thông số 2.0, xuất hiện vào năm 2020, đã thêm hỗ trợ cơ bản cho chuyển mạch (switching), có nghĩa là bộ nhớ có thể được gộp lại và sau đó phân bổ cho bất kỳ số lượng hệ thống kết nối nào.

Các dòng Epyc và Xeon hiện tại của AMD và Intel đã hỗ trợ các thiết bị này. Tuy nhiên, mặc dù bộ nhớ có thể được phân vùng và phân bổ lại cho các máy khác nhau khi cần, hai máy không thể hoạt động trên cùng một dữ liệu đồng thời.

Trừ khi bạn bị hạn chế về bộ nhớ, sự phức tạp thêm vào của CXL 2.0 không mang lại nhiều lợi ích so với việc chỉ sử dụng DIMM dung lượng cao hơn ngay từ đầu. Ít nhất là cho đến khi giá bộ nhớ tăng vọt.

Sự tiến hóa của CXL 3.0

Điều thực sự thú vị là khi thông số 3.0 xuất hiện trong thế hệ Epyc và Xeon tiếp theo của AMD và Intel. Trên thực tế, theo những gì chúng tôi hiểu, CPU Amazon Graviton5 mà chúng tôi đã xem xét vào tháng 12 đã hỗ trợ thông số này.

CXL 3.0 giới thiệu hai khả năng chính khiến nó đặc biệt thú vị cho các thiết bị bộ nhớ. Thứ nhất là hỗ trợ các cấu trúc lớn hơn (topologies): Nhiều switch CXL có thể được nối với nhau thành một mạng lưới (fabric). Thứ hai là hỗ trợ chia sẻ bộ nhớ: Thay vì phân vùng bộ nhớ thành các lát chỉ có thể truy cập bởi một máy tại một thời điểm, bộ nhớ có thể được chia sẻ giữa các máy.

Về lý thuyết, điều này có thể cho phép hai máy chạy cùng một khối lượng công việc sử dụng bộ nhớ gần giống của một máy. Nó giống như việc khử trùng lặp (deduplication) cho bộ nhớ. Trên thực tế, chúng ta đã làm điều này trong các môi trường ảo hóa như KVM, nhưng giờ đây nó hoạt động trên nhiều máy.

Tất nhiên, điều này đi kèm với các vấn đề về bảo mật và hiệu suất. May mắn thay, trong CXL 3.1 và các phiên bản sau, liên minh đã đưa các khả năng tính toán bảo mật vào thông số, cho phép cô lập khi cần thiết.

Về hiệu suất, CXL 3.0 chuyển sang sử dụng PCIe 6.0 làm cơ sở, cung cấp băng thông hai chiều 16 GB/s cho mỗi làn (lane). Giả sử có 64 làn CXL cho mỗi CPU, con số này cộng thêm là 512 GB/s băng thông. Vì vậy, băng thông bộ nhớ không nên là vấn đề quá lớn đối với hầu hết các ứng dụng. Tuy nhiên, độ trễ là một câu chuyện khác.

Bộ nhớ gắn CXL sẽ thêm một chút độ trễ. Tuy nhiên, như chúng ta đã thảo luận trước đây, độ trễ không tệ như bạn có thể nghĩ — ở mức độ của một bước nhảy NUMA, hoặc khoảng 170 đến 250 nanosecond độ trễ khứ hồi. Rõ ràng, càng xa thiết bị bộ nhớ khỏi máy chủ CPU, độ trễ càng tồi tệ hơn.

Cuối năm ngoái, liên minh CXL đã phê chuẩn thông số 4.0, trong số các thứ khác, nó tăng gấp đôi băng thông từ 16 GB/s mỗi làn lên 32 GB/s bằng cách chuyển sang cơ sở PCIe 7.0. Tuy nhiên, sẽ còn một thời gian trước khi chúng ta thấy các thiết bị dựa trên thông số này.

Các giải pháp phần cứng hiện có

Có một số công ty đang phát triển phần cứng cho các thiết bị bộ nhớ mạng kiểu này. PanSwitch tương thích CXL 3.2 của Panmnesia là một trong những ví dụ tinh vi nhất. Switch này có 256 làn kết nối để các mô-đun, thiết bị hoặc CPU bộ nhớ CXL kết nối, gộp hoặc chia sẻ tài nguyên.

Nếu bạn chấp nhận việc gộp bộ nhớ và không cần các tính năng cao cấp của CXL 3.0, thì đã có một số thiết bị bộ nhớ có sẵn tương thích với thế hệ bộ xử lý Xeon 6 và Epyc Turin mới nhất.

Nền tảng bộ nhớ có thể kết hợp (composable memory) của Liqid, ví dụ, có thể cung cấp một pool lên tới 100 TB DDR5 cho tối đa 32 máy chủ. Trong khi đó, hệ thống UnifabriX Max cung cấp kết nối CXL 1.1 hoặc 2.0 cho 16 hệ thống trở lên và hỗ trợ CXL 3.2 đã được lên kế hoạch.

Chúng tôi nghi ngờ rằng khi càng nhiều CPU và GPU tương thích CXL 3.0 ra mắt, sẽ có nhiều "hộp thần bộ nhớ" kiểu này xuất hiện hơn.

AI: Kẻ tiêu thụ tất cả

Đừng quá phấn khích. Mặc dù bộ nhớ gắn mạng có khả năng giảm chi phí cơ sở hạ tầng của doanh nghiệp, nhưng những phẩm chất tương tự cũng khiến nó trở nên hấp dẫn cho chính thứ đang gây ra sự thiếu hụt bộ nhớ ngay từ đầu.

Việc áp dụng AI đã đẩy nhu cầu DRAM lên mức kỷ lục. Ngoài bộ nhớ HBM được sử dụng bởi GPU, DDR5 đang được sử dụng để giảm tải bộ nhớ đệm key-value (KV cache) trong quá trình suy luận (inference).

Các bộ nhớ đệm KV này lưu trữ trạng thái của mô hình và có thể tiêu thụ một lượng lớn bộ nhớ — thường nhiều hơn chính mô hình — trong các kịch bản phục vụ đa thuê bao (multi-tenant).

Thay vì loại bỏ các bộ nhớ đệm này và biên dịch lại chúng khi trạng thái mô hình được khôi phục, việc giảm tải chúng sang bộ nhớ hệ thống và cuối cùng là lưu trữ flash sẽ hiệu quả hơn.

Vấn đề của việc sử dụng lưu trữ flash là nó có độ bền ghi hạn định. Sau một thời gian, nó sẽ bị hao mòn. Thay vào đó, các nhà cung cấp bộ nhớ CXL đang định vị công nghệ này như một giải pháp thay thế bền bỉ hơn.

Đó là tin xấu cho các doanh nghiệp đang nhìn vào các "hộp thần bộ nhớ" này như sự cứu rỗi khỏi cuộc khủng hoảng RAM.