Lắp GPU Datacenter Tesla V100 vào PC Gaming chỉ với 200 bảng: Kinh nghiệm thực tế

Tác giả đã thành công trong việc tích hợp GPU Tesla V100 cũ giá rẻ vào PC gaming cá nhân, tạo ra hệ thống 32GB VRAM để chạy các mô hình AI lớn cục bộ. Dù gặp phải thách thức lớn về tiếng ồn và tương thích phần mềm, giải pháp DIY này mang lại hiệu năng đáng kinh ngạc so với chi phí bỏ ra.

Tôi đã sở hữu một chiếc RTX 4080 với 16GB VRAM. Đây là cấu hình đủ tốt để chơi game, nhưng lại không đủ sức để chạy các mô hình AI (LLM) cỡ lớn mà tôi mong muốn thử nghiệm cục bộ. Trong thế giới GPU, bước nâng cấp tiếp theo thường là chi một khoản tiền khổng lồ cho một card có nhiều VRAM hơn, hoặc tìm một giải pháp khác.

Và tôi đã tìm ra giải pháp đó.

Tôi đã mua một chiếc GPU datacenter thậm chí không có cổng kết nối PCIe thông thường, gắn nó vào PC gaming của mình thông qua một bộ chuyển đổi, và giờ đây tôi có tổng cộng 32GB VRAM trên hai GPU, chạy một mô hình 27 tỷ tham số với tốc độ 32 token mỗi giây. Toàn bộ dự án chỉ tốn của tôi 200 bảng Anh.

Con quái vật Tesla V100

Đây là Tesla V100 SXM2 16GB. Ban đầu, nó được thiết kế cho các máy chủ DGX và hệ thống rack của NVIDIA. Form factor SXM2 có nghĩa là nó không có khe cắm PCIe, không có cổng xuất hình ảnh, và không có cổng nguồn tiêu chuẩn. Nó nằm trên một bo mạch chủ độc quyền bên trong rack máy chủ và giao tiếp qua NVLink.

Bạn không thể cắm thẳng chiếc card này vào bo mạch chủ thông thường nếu không có sự trợ giúp.

Mặt trước của GPU Tesla V100 SXM2

Tuy nhiên, điểm hấp dẫn nằm ở chỗ: đây là một GPU kiến trúc Volta với 16GB bộ nhớ HBM2, 5120 lõi CUDA, và tôi đã mua nó trên eBay với giá khoảng 150 bảng. sức mạnh tính toán vẫn còn đó, VRAM vẫn còn đó, và đặc biệt là băng thông bộ nhớ thực sự gây ấn tượng mạnh.

HBM2 là một đẳng cấp bộ nhớ khác. V100 có bus bộ nhớ 4096-bit cung cấp băng thông 900 GB/s. Để so sánh, chiếc RTX 4080 của tôi với bộ nhớ GDDR6X hiện đại chỉ đạt 736 GB/s. Một chiếc GPU từ năm 2017 có băng thông bộ nhớ cao hơn 22% so với GPU ra mắt năm 2022.

Không chỉ các card tiêu dùng của NVIDIA thua kém. Apple M3 Max đạt 400 GB/s, M4 Max đạt 546 GB/s, và chiếc M5 Max đắt tiền nhất cũng chỉ đạt 614 GB/s. GPU V100 cũ kỹ này đánh bại mọi chiếc Mac hiện có trên thị trường về mặt băng thông bộ nhớ.

Vấn đề duy nhất là cổng kết nối.

Bộ chuyển đổi và "cái quạt từ địa ngục"

May mắn thay, có ai đó đã sản xuất một bộ chuyển đổi từ SXM2 sang PCIe. Nó không phải do NVIDIA làm ra và không được hỗ trợ chính thức, chỉ là một bo mạch PCB trần với ổ cắm SXM2 ở một bên và đầu nối PCIe ở bên kia. Tôi trả khoảng 50 bảng cho nó.

Nhưng trước khi có thể sử dụng V100, tôi phải giải quyết vấn đề quạt散热. V100 SXM2 được thiết kế để hoạt động trong máy chủ 2U với hệ thống làm mát công nghiệp. Quạt trên bộ chuyển đổi này không hề tinh tế một chút nào.

Tôi đã đo độ ồn của nó bằng Apple Watch: 82 decibel.

Đo độ ồn 82dB bằng Apple Watch

Đó là mức âm thanh nằm somewhere giữa một máy xay rác và một máy cắt cỏ, vượt xa mức "PC ồn" thông thường và tiến vào vùng lãnh thổ "liệu tôi có nên bịt tai trong chính ngôi nhà của mình không". Điều tồi tệ nhất là bạn không thể điều khiển nó. Nó được thiết kế để chạy 100% công suất mãi mãi.

Tuy nhiên, sau một chút thí nghiệm với pin 9V và dây jumper, tôi phát hiện ra chân quạt của nó tuân theo chuẩn thông thường. Tôi đã hàn dây để kết nối chân PWM và Tachometer của quạt vào một header quạt dự phòng trên bo mạch chủ.

Tản nhiệt trên bộ chuyển đổi V100

Kết quả? Tôi giữ quạt ở mức 10%. Nó không bao giờ vượt quá 50 độ C ngay cả khi tải tối đa, và quan trọng là tôi không còn nghe thấy tiếng ồn đó nữa.

Nâng cấp VRAM giá rẻ

Với vấn đề quạt đã được giải quyết, V100 nằm gọn ngay bên cạnh chiếc 4080 của tôi:

RTX 4080: 16GB VRAM, kiến trúc Ada.
Tesla V100: 16GB VRAM, kiến trúc Volta.
Tổng cộng: 32GB VRAM trên hai GPU.

Phần mềm llama.cpp có thể chia nhỏ mô hình qua cả hai GPU sử dụng tính năng tensor splitting. Nó luân chuyển các lớp dữ liệu qua bus PCIe để 4080 xử lý một phần và V100 xử lý phần còn lại. Mặc dù không nhanh bằng việc có một chiếc GPU duy nhất 32GB, nhưng nó hoạt động tốt và chỉ tốn khoảng 10% chi phí so với một chiếc GPU 32GB thực thụ.

Thiết lập phần mềm với NixOS

Phần này diễn ra khá suôn sẻ nhờ vào NixOS. V100 là chip Volta, và NVIDIA đã ngừng hỗ trợ Volta bắt đầu từ nhánh driver 560. Nhánh driver cuối cùng hỗ trợ cả RTX 4080 (Ada) và V100 (Volta) là nhánh 550.x, tương ứng với nvidiaPackages.legacy_535 trên NixOS.

Driver này chỉ hỗ trợ CUDA lên đến phiên bản 12.2, nên tôi phải kéo CUDA 12.2 từ nixpkgs phiên bản cũ hơn (24.05). Ngoài ra, driver yêu cầu kernel 6.6. Một chi tiết lạ là dù đây là máy chủ suy luận không có đầu ra (headless), tôi vẫn phải bật services.xserver.enable = true để các kernel module của NVIDIA tải được.

NixOS đã xử lý việc này rất elegantly. Cả hai GPU đều được nhận diện, CUDA hoạt động tốt.

Hiệu năng thực tế

Tôi đang chạy mô hình Qwen3.6-27B-MTP được lượng tử hóa ở mức Q5_K_M, dung lượng khoảng 19GB. Với cả hai GPU, toàn bộ mô hình vừa khít trong VRAM và còn dư chỗ cho ngữ cảnh (context).

Hiệu năng đạt được khoảng 32 token/giây. Tốc độ này đủ nhanh để sử dụng tương tác thực tế, thậm chí nhanh hơn nhiều điểm cuối API đám mây khi tính đến độ trễ mạng. Và đây là kết quả khi chia sẻ tensor qua hai kiến trúc GPU khác nhau kết nối qua PCIe.

Mô hình này thực sự rất chất lượng. Qwen3.6-27B ngang bằng với Claude Sonnet 4.6 trên Artificial Analysis’s Agentic Index. Một mô hình 27 tỷ tham số chạy trên phần cứng cũ đã thực sự cạnh tranh được với các mô hình đám mây mới nhất từ Anthropic.

Hỗ trợ thị giác (Vision)

Mô hình Qwen3.6-27B hỗ trợ nhập hình ảnh thông qua một tệp bộ chiếu đa phương thức (mmproj) riêng biệt, khoảng 928MB. Cách hoạt động là một bộ mã hóa thị giác (vision encoder) sẽ chuyển đổi pixel hình ảnh thành không gian nhúng token của LLM.

Trong thực tế, bạn gửi cho mô hình một URL hình ảnh cùng với câu hỏi văn bản, và nó có thể mô tả, phân tích và lý luận về những gì nó thấy. Trong llama.cpp, việc này chỉ cần thêm cờ --mmproj để tải bộ mã hóa thị giác lên GPU cùng với mô hình.

Kết luận

Với 200 bảng, tôi có được:

Một chiếc GPU datacenter 16GB chạy song song với GPU gaming.
Tổng cộng 32GB VRAM cho suy luận LLM cục bộ.
Tốc độ 32 token/giây trên mô hình 27 tỷ tham số.
Cửa sổ ngữ cảnh 128k token.
Hỗ trợ thị giác cho đầu vào hình ảnh.

Chi phí thực sự duy nhất là tiếng ồn, và tôi đã giải quyết nó với vài đồng tiền cho dây cáp và một chút kỹ thuật hàn. V100 không phải là GPU nhanh nhất cho suy luận, và việc chia sẻ tensor giữa hai kiến trúc khác nhau không sạch sẽ như một chiếc GPU duy nhất. Nhưng với mức giá này, giá trị mà nó mang lại là cực kỳ hấp dẫn.

Nếu bạn muốn chạy các mô hình phù hợp cục bộ một cách nghiêm túc, hãy nhìn vào thị trường GPU server cũ. Bạn không nhất thiết phải có một GPU cao cấp sẵn. Một chiếc V100 đơn lẻ trong một chiếc máy chủ giá rẻ cũng có thể mang lại 16GB VRAM và một trải nghiệm LLM cục bộ hoàn toàn sử dụng được với rất ít tiền.