Cẩm nang mua sắm Mini PC chạy Local LLM năm 2026: Giá tăng gấp đôi và đâu là lựa chọn tốt nhất?

Thị trường Mini PC chạy AI cục bộ đang bùng nổ với sự ra đời của chip AMD Strix Halo, nhưng giá cả đã tăng phi mã và người dùng cần cảnh tỉnh trước các rủi ro. Bài viết phân tích sâu về kiến trúc bộ nhớ thống nhất, tình trạng khan hiếm RAM và đưa ra các đề xuất mua sắm từ phân khúc cao cấp đến giá rẻ.

Mini PC cho Local LLM

Sáu tháng trước, tôi đã đánh dấu một phiên bản GMKtec EVO-X2 với cấu hình 128GB Ryzen AI MAX+ 395 có giá 2.099 USD. Tôi quyết định đợi một tuần để suy nghĩ thêm trước khi "chốt đơn". Khi quay lại kiểm tra, giá của sản phẩm đó đã tăng vọt lên 3.299 USD. Không hề có sai sót gì đâu, bạn đọc đâu.

Cuộc "thảm họa RAM" (do giá LPDDR5 tăng cao, nhu cầu AI bùng nổ...) đã làm giá các thiết bị này tăng thêm 60% so với mức ban đầu. Ngay cả Corsair cũng âm thầm tăng giá trạm làm việc AI Workstation 300 của họ lên thêm 1.100 USD. Các cộng đồng như r/LocalLLaMA trên Reddit hiện nay ngập tràn những người tự đấm ngực thương tiếc vì đã không mua sớm.

AMD vừa công bố chiếc máy Halo Box nội bộ của họ tại AI Dev Day, sẽ lên kệ vào tháng 6. Mọi nhà sản xuất Mini PC đều đang dán nhãn "Ryzen AI MAX+ 395" lên sản phẩm của mình. Các video YouTube đều hô hào đây là cỗ máy chạy Local LLM mà bạn đang mong đợi. Về cơ bản là đúng, nhưng cũng đầy rủi ro và lời khuyên mua sắm "hiển nhiên" thường sai lầm đối với đa số người dùng.

Dưới đây là phân tích chi tiết về những gì thực sự đáng mua vào năm 2026.

Strix Halo là gì và tại sao cộng đồng AI lại "sốc"?

Để bạn dễ hình dung: Strix Halo là tên mã của AMD cho nền tảng Ryzen AI MAX+ 395. Đây là một APU hạng laptop mà AMD cũng cấp phép cho máy bàn và Mini PC. Điểm bán hàng không nằm ở CPU, mà nằm ở kiến trúc bộ nhớ thống nhất (unified memory architecture): lên tới 128GB LPDDR5x được hàn trực tiếp lên bo mạch, có thể được cả CPU và GPU tích hợp 8060S truy cập ở tốc độ khoảng 256 GB/s.

Đối với Local LLMs, đây là thông số "phép thuật". Hầu hết các PC chơi game tầm trung chỉ có tổng cộng 16–24GB VRAM. Một mô hình 70B thông số ở định lượng 4-bit (4-bit quantization) cần khoảng 40GB bộ nhớ. Nếu không có bộ nhớ thống nhất, bạn sẽ bị kẹt giữa việc mua một card RTX 3090 cũ (ồn ào, nóng, chiếm 2 khe PCIe, giá khoảng 1.500 USD) hoặc chấp nhận việc mô hình chạy một phần trên RAM hệ thống với tốc độ "rùa bò".

Strix Halo thay đổi cuộc chơi. 128GB bộ nhớ thống nhất có nghĩa là bạn có thể tải mô hình 70B và vẫn còn chỗ cho hệ điều hành, trình soạn thảo văn bản và nửa tá container Docker. Và tất cả được gói gọn trong vỏ máy Mini PC 2.5L chỉ tiêu thụ khoảng 140W khi tải.

Đó là lý thuyết. Còn thực tế thì phũ phàng hơn nhiều.

Giá đã tăng gấp đôi

Đây là điều mà không ai dẫn đầu trong các bài báo: Sáu tháng trước, bạn có thể mua một chiếc máy Strix Halo 128GB với giá khoảng 1.500–1.800 USD. Ngày nay, cùng một chiếc máy đó có giá 3.000 USD+. Có một luồng thảo luận trên Reddit tuần này nơi một người mua thẳng thắn thừa nhận: "Tôi mua của mình giá 2.000 USD vào tháng 10. Cùng một link Amazon nay là 3.299 USD".

Mẫu máy	RAM	Giá ra mắt (10/2025)	Giá hiện tại (05/2026)
GMKtec EVO-X2	128GB	~$2,099	$3,299
Corsair AI Workstation 300	128GB	~$2,299	$3,399
Framework Desktop	128GB	$1,999 (preorder)	~$3,100
Beelink GTR9 Pro	128GB	~$1,899	$3,299

Vì vậy, khi đọc một bài đánh giá "Mini PC Strix Halo tốt nhất 2026" trích dẫn giá từ bài đánh giá ra mắt, hãy kiểm tra lại Amazon thật kỹ trước khi hưng phấn.

Hai bẫy cần lưu ý trước khi bấm mua

1. Giới hạn 120W cho eGPU AMD

Vấn đề này chỉ xuất hiện khi bạn đọc sâu các bài đánh giá về FEVM FAEX1. FEVM và một số mẫu MINISFORUM có cổng Oculink, cho phép gắn thêm GPU rời. Nghe thì tuyệt vời. Kết hợp một chiếc máy Strix Halo với card RTX 4090 cũ, bạn sẽ có một rig AI local thực thụ, đúng không?

Chỉ đúng một nửa. Có một giới hạn BIOS trên hầu hết các bo mạch Strix Halo hiện nay: bất kỳ GPU rời AMD nào kết nối qua Oculink (hoặc riser M.2 sang PCIe) đều bị giới hạn ở công suất 120W. Dù đó là 7900 XTX, 6700 XT hay thậm chí là Vega 64 cũ, tất cả đều bị giới hạn.

Các card NVIDIA reportedly hoạt động bình thường. Nhưng bất kỳ ai hy vọng gắn một card AMD rẻ tiền vào máy Strix Halo để tăng sức mạnh suy luận (inference) sẽ gặp rắc rối lớn.

Tôi đã thử 7900XTX của mình, bị giới hạn 120W. Thử 6700XT, cũng 120W. Thậm chí cả chiếc Vega 64 cũ kỹ... vẫn 120W. Nhưng thử chiếc 4090 của bạn thân thì không bị giới hạn. — Một người dùng trên r/MiniPCs.

MINISFORUM cho biết đang làm bản vá BIOS, còn AMD thì im lặng. Nếu bạn mua Strix Halo để gắn eGPU, hãy đợi bản vá hoặc chọn nền tảng khác.

2. Trần băng thông bộ nhớ

Con số 256 GB/s là có thật, nhưng để so sánh, Apple M5 Ultra đạt khoảng 800 GB/s trên bộ nhớ thống nhất của họ. Một chiếc RTX 3090 cũ đạt khoảng 936 GB/s trên 24GB VRAM. Vậy nên Strix Halo chỉ có bằng một phần ba băng thông so với các giải pháp thay thế.

Để suy luận các mô hình lớn vừa khít bộ nhớ thống nhất, điều này vẫn tốt hơn là không có gì. Bạn sẽ đạt được tốc độ token khả dụng trên mô hình 70B Q4, điều mà GPU 24GB không thể tải nổi. Tuy nhiên, đối với việc xử lý prompt (phần chậm nơi mô hình đọc đầu vào của bạn trước khi bắt đầu tạo), băng thông rất quan trọng và Strix Halo rõ ràng chậm hơn GPU chuyên dụng.

Nói cách khác: cho các trường hợp sử dụng kiểu chat với prompt ngắn, Strix Halo cảm giác rất mượt. Nhưng với các quy trình làm việc RAG (nhúng tài liệu) hoặc các tác nhân lập trình ngữ cảnh dài, thời gian chờ xử lý prompt sẽ gây ức chế. Medusa Halo của AMD dự kiến sẽ nhân đôi băng thông, nhưng phải đến cuối 2027.

Bạn có thực sự nên mua một chiếc không?

Hãy đối mặt với sự thật. Có một bình luận cũ trên r/LocalLLaMA mà tôi luôn suy nghĩ:

Gần như LUÔN LUÔN rẻ hơn mỗi token khi chạy Kimi trên một kho dữ liệu khổng lồ hoạt động liên tục ở công suất 90% so với việc chạy phiên bản local sẽ rảnh rỗi 90% thời gian.

Việc tính toán kinh tế rất tàn nhẫn. Một chiếc Mini PC giá 3.299 USD, nawet khi khấu hao trong ba năm, cũng tốn khoảng 90 USD mỗi tháng trước điện. Với 90 USD, tôi có thể chạy khoảng 18.000 lượt trò chuyện trung bình qua API Claude hoặc Gemini với tỷ giá hiện tại, hoặc thoải mái sử dụng gói Claude Pro 20 USD và vẫn còn tiền dư. Local inference hiếm khi rẻ hơn nếu bạn trung thực về mức độ sử dụng thực tế của mình.

Lý do để sở hữu phần cứng local không phải là kinh tế. Nó nằm ở hai điểm khác:

Quyền riêng tư: Một số khối lượng công việc (thư y tế, tài liệu pháp lý, nhật ký cá nhân, bất cứ thứ gì thuộc NDA) thực sự không được phép rời mạng lưới của bạn. Với những việc đó, câu hỏi không phải là "local có rẻ hơn" mà là "local có khả thi không". Strix Halo là con đường rẻ nhất để trả lời "Có".
Sự thay đổi tư duy: Điều này tôi thấy thuyết phục trên cá nhân. Một trích dẫn khác: "Sở hữu phần cứng thay đổi mối quan hệ của bạn từ 'mỗi prompt tốn tiền' sang 'tôi có token miễn phí, hãy thử xem nào'."

Nếu cả hai điều trên không áp dụng với bạn, hãy giữ lại 3.299 USD. Hãy dùng Claude Pro hoặc các API miễn phí và dùng tiền đó cho việc khác.

GMKtec EVO-X2

Các lựa chọn của tôi tại từng phân khúc

OK, bạn đã đọc đến đây và vẫn muốn mua. Dưới đây là những gì tôi thực sự sẽ chọn.

Tầng 1: Flagship Strix Halo đầy đủ

GMKtec EVO-X2 (Ryzen AI MAX+ 395) — từ 2.349 USD (96GB) đến 3.299 USD (128GB)

Đây là đơn vị mà hầu hết người dùng r/LocalLLaMA chọn. Ryzen AI MAX+ 395, LPDDR5x 8000 MHz, SSD NVMe 1TB hoặc 2TB, LAN 2.5G đôi, USB4. Bản 96GB giá 2.349 USD xử lý mọi thứ lên đến mô hình 30B Q8 và 70B Q4 với chút nén. Bản 128GB giá 3.299 USD cho bạn không gian headroom đầy đủ cho 70B cộng với chỗ cho OS và Docker.

Nhược điểm là giá cả và tiếng ồn khi tải nặng. Nếu đặt trong phòng ngủ, hãy lấy Beelink GTR9 Pro 128GB thay thế. Cùng chip, giá tương tự, tản nhiệt tốt hơn nhưng vỏ máy cồng kềnh hơn.

Nếu bạn muốn giảm xuống phân khúc Ryzen AI 9 HX 470 (rẻ hơn, nhiều mở rộng hơn, ít bộ nhớ thống nhất hơn), MINISFORUM AI X1 Pro-470 với 32GB DDR5 + SSD 1TB là lựa chọn mid-range sạch sẽ nhất giá 1.359 USD.

Tầng 2: Lựa chọn thông minh hơn cho đại đa số

Beelink SER10 MAX (Ryzen AI 9 HX 470) — 1.799 USD

Beelink ra mắt chiếc này dưới tên "phiên bản OpenClaw" và cái tên thì ngớ ngẩn, nhưng phần cứng thực sự là điểm ngọt (sweet spot) của năm 2026. 86 TOPS kết hợp NPU+iGPU, 32GB DDR5, NVMe 1TB. HX 470 là bản làm mới của HX 370 với hiệu suất cao hơn khoảng 10% và NPU mới. Bạn có thể chạy thoải mái các mô hình 13B và mô hình 27B ở Q4 (Qwen 3.6 27B vừa vặn và chạy tốt).

Nếu tôi bắt đầu từ con số 0, đây là chiếc máy tôi sẽ mua. Nó có giá bằng một nửa chiếc Strix Halo 128GB, chạy các mô hình thực tế hữu ích cho công việc hàng ngày của lập trình viên, và nó đóng vai trò là máy chủ OpenClaw hoàn hảo khi bạn không chạy inference. Nếu bạn mới bắt đầu với Local LLM, hãy bắt đầu từ đây.

Tầng 3: Phân khúc giá rẻ vẫn làm được việc thực

Beelink SER9

Beelink SER9 (Ryzen 7 H 255, 32GB) — 859 USD

8 nhân, 32GB LPDDR5, NVMe 1TB. Không NPU, không thương hiệu AI, chỉ là một chip đời 2024 vững chắc trong vỏ máy yên tĩnh. GPU tích hợp Radeon 780M đủ để chạy các mô hình 7B và 13B ở Q4 với tốc độ khả dụng bằng llama.cpp. Bạn sẽ không chạy thoải mái mô hình 27B và chắc chắn không chạy được 70B. Nhưng với nhiều trường hợp sử dụng thực tế (hoàn thành code với Qwen 2.5 Coder 7B, chat đơn giản với Gemma 4 4B, RAG trên bộ tài liệu nhỏ với Llama 3.2 3B), H 255 là quá đủ.

Tôi tiếp tục đề xuất SER9 vì nó đáp ứng tốt nguyên tắc 80/20. Hầu hết người dùng nghĩ mình cần Strix Halo thực ra chỉ cần cái này cộng với thuê bao API Claude cho các việc nặng.

Nếu muốn cái gì đó rẻ hơn nữa, origimagic A3 (Ryzen 7 8745HS, 32GB DDR5, SSD 1TB) giá 609 USD là lựa chọn giá/năng suất tốt nhất tôi thấy tháng này. 8745HS tương đương roughly với H 255 cho tác vụ inference, và DDR5 có thể nâng cấp (so với LPDDR5 hàn chết) nghĩa là bạn có thể nâng lên 64GB sau này nếu muốn chơi với mô hình lớn hơn.

Về phần mềm: Lemonade SDK đáng để biết

Nếu bạn đi theo hướng AMD, Lemonade SDK là máy chủ AI local mã nguồn mở mà AMD đang thúc đẩy như câu trả lời của họ cho Ollama. Bản phát hành 10.3 tuần trước đã loại bỏ Electron để chuyển sang Tauri, giảm kích thước binary từ 100MB xuống còn 9MB. Họ thêm "OmniRouter" tự động chọn giữa CPU, GPU tích hợp và backend NPU cho mỗi yêu cầu, và làm dễ dàng việc chuyển đổi giữa ROCm 7.2 stable, ROCm 7.12 preview và TheRock nightly builds.

Nó chưa mượt mà bằng Ollama. AppImage Linux trên Ubuntu 26.04 vẫn còn vấn đề về Wayland. Nhưng đây là dự án duy nhất nhận được hỗ trợ ngày-zero cho phần cứng AMD mới, bao gồm cả NPU trên Strix Halo. Nếu bạn mua Ryzen AI vì NPU, Lemonade là con đường thực sự sử dụng nó. Ollama thông thường sẽ quay lại CPU/iGPU và bỏ qua NPU hoàn toàn trên hầu hết các thiết lập.

Lời khuyên trung thực của tôi: cài cả hai. Ollama cho trải nghiệm mượt mà và khả năng mô hình rộng rãi, Lemonade để benchmark xem NPU của bạn làm được gì.

Kết luận

Nếu tôi mua chiếc Mini PC Local LLM đầu tiên ngày mai, với những gì tôi biết bây giờ:

Nếu có 1.500 USD: Beelink SER10 MAX HX 470 (1.799 USD là chấp nhận được, và có thể săn hàng giảm giá Cyber Week còn 1.499 USD). Chạy Qwen 3.6 27B Q4 để code, Gemma 4 9B để chat. Kết hợp với thuê bao API Claude cho các việc cần khả năng tiên phong (frontier capability).
Nếu có 3.500 USD và riêng tư là quan trọng: GMKtec EVO-X2 128GB. Stack local đầy đủ, mô hình 70B, không phụ thuộc cloud. Đáng tiền riêng cho các khối lượng công việc dữ liệu không được rời mạng.
Nếu có 700 USD và chỉ tò mò: origimagic A3 cộng một tuần dùng thử miễn phí Claude Pro. Chạy Llama 3.2 3B và Qwen 2.5 Coder 7B local cho trải nghiệm "mỗi prompt là miễn phí", dựa vào Claude cho việc nghiêm túc.

Điều tôi sẽ không làm: chi 3.299 USD cho một chiếc máy Strix Halo 128GB ngay lúc này nếu tôi chưa chắc chắn mình cần inference local-only. Giá sẽ giảm khi chiếc Halo Box thương hiệu AMD của AMD lên kệ vào tháng 6, và Medusa Halo thế hệ sau (cuối 2027) sẽ nhân đôi băng thông bộ nhớ với hy vọng mức giá hợp lý hơn.

Tôi có thể sai về việc giá giảm. Thuế quan và lạm phát RAM có cách làm cho các dự báo trở nên ngớ ngẩn. Nhưng mua đỉnh sóng hype hiếm khi mang lại kết quả tốt.

Chúc bạn suy luận vui vẻ! 🚀