Thuê siêu máy tính theo giờ: Cách tôi xử lý 335.000 token chỉ với 57 cent

Bài viết chia sẻ cách thuê GPU hiệu năng cao trên nền tảng Vast.ai để chạy các mô hình AI mã nguồn mở, giúp xử lý khối lượng dữ liệu khổng lồ với chi phí cực thấp mà không bị giới hạn tốc độ.

Tuần trước, tôi đã gặp phải bế tắc. Các dịch vụ AI miễn phí mà tôi sử dụng đều có giới hạn hàng ngày (bạn chỉ có thể đặt giới hạn số câu hỏi trước khi hệ thống yêu cầu quay lại vào ngày mai). Hệ thống trợ lý AI của tôi — công cụ dùng để xây dựng website, tạo khách hàng tiềm năng và viết email — đã tiêu thụ hết hạn ngạch trước buổi trưa.

Tôi cần nhiều hơn. Nhiều hơn rất nhiều. Vì vậy, tôi đã làm một điều nghe có vẻ điên rồ nhưng lại tốn ít hơn giá một ly cà phê: Tôi đã thuê hai card đồ họa siêu máy tính trong vài giờ và chạy AI của riêng mình.

Dưới đây là chính xác những gì đã diễn ra.

Khoan đã — Bạn Có Thể Thuê Siêu Máy tính?

Có. Và điều này thật đáng ngạc nhiên vì nó quá dễ dàng.

Trước hết, hãy làm rõ một số thuật ngữ nhanh:

GPU (Đơn vị xử lý đồ họa) là một con chip máy tính đặc biệt ban đầu được thiết kế để kết xuất đồ họa trò chơi điện tử. Hóa ra, phần cứng giúp trò chơi của bạn trông đẹp mắt lại cực kỳ xuất sắc trong việc chạy các mô hình AI. Đó là lý do NVIDIA — công ty tạo ra những GPU phổ biến nhất — trở thành một trong những công ty có giá trị nhất thế giới.

Các GPU cụ thể mà tôi thuê được gọi là H200 — đây là những chip AI hàng đầu của NVIDIA. Một chiếc trong số này có giá khoảng 30.000 USD để mua. Tôi đã thuê hai chiếc với giá 4,14 USD/giờ thông qua một nền tảng gọi là Vast.ai.

Vast.ai giống như Airbnb, nhưng dành cho GPU. Những người và trung tâm dữ liệu có sức mạnh tính toán thừa sẽ liệt kê máy móc của họ, và bạn thuê chúng theo giờ. Không cam kết, không hợp đồng. Bạn khởi động máy khi cần và tắt nó đi khi xong việc.

Chạy "AI Riêng" Có Nghĩa Là Gì?

Thông thường khi bạn sử dụng ChatGPT hoặc Claude, những điều sau sẽ diễn ra sau hậu trường:

Bạn nhập một tin nhắn
Tin nhắn của bạn được gửi qua internet đến máy chủ của OpenAI (hoặc Anthropic)
Máy tính của họ chạy mô hình AI trên tin nhắn của bạn
Họ gửi phản hồi lại cho bạn
Họ tính phí bạn cho việc xử lý

"Chạy AI riêng" có nghĩa là bỏ qua trung gian. Thay vì gửi tin nhắn đến máy tính của người khác, bạn:

Thuê một máy tính mạnh mẽ (các GPU trên Vast.ai)
Tải xuống một mô hình mã nguồn mở (open-weight) — đây là mô hình AI mà các nhà sáng tạo phát hành miễn phí cho bất kỳ ai sử dụng (như GPT-OSS 120B của OpenAI hoặc Llama của Meta)
Chạy nó trên máy tính bạn đã thuê
Gửi tin nhắn trực tiếp đến nó

Không có phí tính theo tin nhắn. Không giới hạn tốc độ. Không giới hạn hàng ngày. Bạn chỉ trả tiền cho thời gian máy tính được bật.

Cài Đặt: 10 Phút, Từ Đầu Đến Cuối

Tôi sẽ hướng dẫn bạn những gì tôi đã làm. Bạn không cần hiểu mọi chi tiết — điểm mấu chốt ở đây là sự đơn giản:

Bước 1: Tôi vào Vast.ai và tìm kiếm các GPU H200 có sẵn giá rẻ nhất. Tìm thấy một cặp với giá 4,14 USD/giờ.

Bước 2: Tôi nhấp vào "rent" (thuê) và yêu cầu khởi chạy một chương trình gọi là vLLM — đây là một phần mềm được thiết kế đặc biệt để chạy các mô hình AI hiệu quả trên GPU. Hãy coi nó như động cơ giúp AI vận hành.

Bước 3: Tôi thiết lập một kết nối an toàn giữa máy tính của mình và các GPU đã thuê (gọi là "đường hầm SSH" — về cơ bản là một đường ống riêng tư, được mã hóa giữa hai máy tính).

Bước 4: Tôi điều hướng trợ lý AI của mình (OpenClaw) đến các GPU đã thuê thay vì các API miễn phí thông thường.

Xong. Toàn bộ hệ thống AI của tôi hiện đang chạy trên siêu máy tính riêng tư của chính tôi.

Kết Quả Đạt Được

Trong 8 giờ tiếp theo, hệ thống của tôi đã xử lý 335.000 token — tương đương khoảng 335.000 từ khối lượng xử lý AI. Nó đã xây dựng các trang web, tạo email, phân tích dữ liệu và viết nội dung.

Tổng chi phí thuê GPU: 33,12 USD (8 giờ × 4,14 USD/giờ)

Nhưng đây là phần điên rồ — tôi thậm chí chưa sử dụng hết công suất. Các GPU phần lớn nằm yên giữa các nhiệm vụ. Nếu tôi xem xét thời gian tính toán thực tế đã sử dụng:

Chi phí hiệu quả cho 335.000 token: khoảng 0,57 USD.

Năm mươi bảy cent. Cho một khối lượng công việc mà nếu sử dụng các API thương mại sẽ tốn từ 15-50 USD.

Tại Sao Điều Quan Trọng (Bức Tranh Toàn Cảnh)

Vấn đề không phải là tiết kiệm 15 USD. Đó là sự thay đổi về tư duy.

Hầu hết mọi người nghĩ về chi phí AI như sau: "Mỗi câu hỏi tốn tôi X cent." Điều này tạo ra tư duy khan hiếm — bạn hạn chế việc sử dụng AI, bạn tránh đặt câu hỏi tiếp theo, và bạn không dám thử nghiệm.

Mô hình thuê GPU đảo ngược vấn đề này: "Dù sao tôi cũng đang trả 4 USD/giờ. Tôi thà cứ dùng hết công suất." Đột nhiên, bạn chạy những thử nghiệm mà bạn chưa bao giờ dám thử. Xử lý các tập dữ liệu mà bạn thường sẽ bỏ qua. Tạo ra các biến thể mà trước đây bạn chấp nhận thỏa hiệp.

Chi phí trên mỗi nhiệm vụ tiến gần về bằng không khi bạn gộp đủ nhiều công việc vào một phiên thuê.

Con Số Cho Các Ngân Sách Khác Nhau

Cách tiếp cận	Chi phí cho 335K Token	Giới hạn hàng ngày?
ChatGPT Pro (200$/tháng)	"Đã bao gồm" nhưng bị giới hạn tốc độ	Có, và bạn sẽ chạm giới hạn
Claude API (Giá Tier 1)	~25 USD	Không có giới hạn cứng
DeepSeek API	~0,10 USD	Không có giới hạn cứng
Tự host trên Vast.ai	~0,57 USD	Không giới hạn gì cả
Miễn phí (Groq/Cerebras)	0,00 USD	Có, đặt lại hàng ngày

Ai Thực Sự Nên Làm Điều Này?

Thành thật mà nói: nếu bạn chỉ sử dụng ChatGPT vài lần một ngày cho việc cá nhân, thì đây là quá mức cần thiết (overkill). Hãy chỉ sử dụng gói miễn phí của Groq hoặc gói ChatGPT miễn phí.

Cách này hợp lý nếu bạn:

Chạy một hệ thống trợ lý AI xử lý hàng nghìn tin nhắn mỗi ngày
Cần xử lý các lô dữ liệu lớn (hàng nghìn email, hàng trăm tài liệu)
Muốn chạy AI mà không có giới hạn tốc độ hoặc giới hạn hàng ngày nào
Đang xây dựng một sản phẩm sử dụng sức mạnh AI và cần kiểm soát chi phí

Mô Hình "Bùng Nổ" (Burst Pattern)

Đây là cách tôi thực sự sử dụng nó trong thực tế — tôi gọi nó là mô hình bùng nổ:

Hầu hết thời gian: Sử dụng các API miễn phí (Groq, Cerebras, OpenRouter). Chi phí: 0 USD.
Khi gặp khó khăn: Thuê GPU trên Vast.ai trong vài giờ, xử lý hết khối lượng công việc. Chi phí: 10-30 USD.
Tắt máy: Tắt thuê. Quay lại dùng miễn phí.

Chi phí trung bình hàng tháng với mô hình này: 12 USD (máy tính đám mây) + 20-40 USD (các đợt bùng nổ GPU thỉnh thoảng) = 32-52 USD/tháng cho sức mạnh xử lý AI không giới hạn mà sẽ tốn hơn 500 USD thông qua các API thương mại.

"Có Phức Tạp Không?"

Thiết lập ban đầu mất khoảng 30 phút nếu bạn chưa bao giờ làm điều này trước đây, và 10 phút sau khi bạn đã làm một lần. Vast.ai có giao diện khá trực quan — bạn tìm kiếm GPU, nhấp thuê và nó cung cấp cho bạn chi tiết kết nối.

Phần khó thực sự là biết khi nào nên "bùng nổ" và khi nào nên sử dụng API miễn phí. Và thực chất đó chỉ là một phán đoán: nếu các API miễn phí đủ nhanh, hãy sử dụng chúng. Nếu bạn cần xử lý một lô lớn hoặc đang chạm giới hạn tốc độ, hãy khởi chạy một thuê GPU.

Những Gì Tôi Đã Học Được

Sức mạnh tính toán AI được phổ cập hóa. Sức mạnh xử lý thực sự rất rẻ. Những gì bạn trả 200 USD/tháng là sự tiện lợi và giao diện đẹp mắt.
Gộp các công việc nặng. Đừng thuê GPU để xử lý một việc. Hãy tích trữ các nhiệm vụ và xử lý hết trong một phiên tập trung.
Gói miễn phí xử lý 90% công việc hàng ngày. Các đợt bùng nổ GPU dành cho 10% còn lại — những việc nặng nhọc.
Mô hình mã nguồn mở là chìa khóa. Các công ty như Meta (Llama), OpenAI (GPT-OSS) và DeepSeek phát hành mô hình của họ để bất kỳ ai sử dụng. Nếu không có những thứ này, tự host (self-hosting) sẽ không thể thực hiện được.

Ryan Brubeck xây dựng cơ sở hạ tầng tác nhân AI tại DreamSiteBuilders.com. Các hệ thống của ông đã xử lý hàng triệu token với chi phí trung bình gần như bằng không.

Ngày mai: "Mô hình Bùng nổ GPU — Cách Tôi Tạo Ra 12.000 USD Doanh Thu Từ 87 USD Chi Phí Tính Toán"