Chạy LLM cục bộ trên Apple Silicon: Có thực sự tiết kiệm hơn so với OpenRouter?

Một phân tích chi tiết cho thấy việc chạy mô hình ngôn ngữ lớn (LLM) cục bộ trên chip Apple Silicon M5 Max thực tế có chi phí cao hơn so với sử dụng dịch vụ đám mây như OpenRouter. Mặc dù chi phí điện năng không đáng kể, chi phí khấu hao phần cứng và tốc độ xử lý chậm hơn khiến giải pháp đám mây trở nên tối ưu hơn về mặt kinh tế cho các doanh nghiệp.

Trong bối cảnh các mô hình ngôn ngữ lớn (LLM) ngày càng phổ biến, nhiều lập trình viên và kỹ sư đang cân nhắc việc chạy các mô hình này cục bộ (offline) trên máy tính cá nhân thay vì phụ thuộc hoàn toàn vào các API đám mây. Một bài phân tích mới đây đã so sánh chi phí và hiệu suất giữa việc chạy LLM trên chip Apple Silicon M5 Max và sử dụng dịch vụ OpenRouter, đưa ra những kết luận khá bất ngờ về tính kinh tế.

Dưới đây là cái nhìn sâu hơn về bài toán chi phí khi chạy AI cục bộ so với đám mây.

Chi phí điện năng: Yếu tố không đáng kể

Khi chạy các tác vụ suy luận (inference) nặng nề, mức tiêu thụ điện năng của một chiếc MacBook Pro M5 Max dao động trong khoảng 50-100 watt. Tại Mỹ, với giá điện trung bình khoảng 0,18 USD/kWh (làm tròn lên 0,20 USD cho dễ tính toán), chi phí điện năng mỗi giờ chỉ vào khoảng 0,009 - 0,018 USD.

Cụ thể, nếu chạy máy ở công suất tối đa liên tục, chi phí điện năng mỗi ngày chỉ khoảng 0,48 USD. So với các chi phí khác, tiền điện là một phần rất nhỏ trong bài toán tổng thể.

Biểu đồ so sánh chi phí sử dụng năng lượng

Chi phí phần cứng và khấu hao

Yếu tố chiếm tỷ trọng lớn nhất chính là chi phí mua sắm và khấu hao phần cứng. Một chiếc MacBook Pro 14 inch cấu hình mạnh M5 Max với 64GB RAM hiện có giá khoảng 4.299 USD. Cấu hình này đủ sức chạy các mô hình lớn như Gemma 4 31b, có hiệu suất tương đương Anthropic Sonnet.

Để tính toán chi phí trên mỗi triệu token, chúng ta cần phân bổ chi phí mua máy theo thời gian sử dụng (tuổi thọ của thiết bị):

3 năm: Chi phí hàng năm là 1.433 USD (~0,16 USD/giờ).
5 năm: Chi phí hàng năm là 860 USD (~0,10 USD/giờ).
10 năm: Chi phí hàng năm là 430 USD (~0,05 USD/giờ).

Với giả định sử dụng thông thường, 5 năm là một con số hợp lý, nhưng nếu chạy suy luận liên tục ở công suất tối đa, tuổi thọ thiết bị có thể giảm xuống còn 3 năm.

Tokenomics: Bài toán chi phí trên mỗi triệu Token

Tốc độ xử lý là chìa khóa để tính toán chi phí cuối cùng. Trên M5 Max, tốc độ xử lý mô hình Gemma 4 31b dao động từ 10 đến 40 token mỗi giây.

Ở mức thấp (10 token/giây): 36.000 token/giờ. Chi phí tương ứng khoảng 1,61 - 4,79 USD/một triệu token.
Ở mức cao (40 token/giây): 144.000 token/giờ. Chi phí giảm xuống còn 0,40 - 1,20 USD/một triệu token.

Rõ ràng, chi phí phần cứng chiếm ưu thế tuyệt đối so với điện năng khi chạy cục bộ.

So sánh với OpenRouter

OpenRouter cung cấp mô hình Gemma 4 31b với giá khoảng 0,38 - 0,50 USD cho mỗi triệu token. Khi so sánh với các kịch bản chạy cục bộ trên M5 Max:

Kịch bản lạc quan: Sử dụng ít điện (50W), tốc độ cao (40 token/giây) và máy kéo dài 10 năm -> Chi phí cục bộ ngang bằng với OpenRouter.
Kịch bản bi quan: Tiêu thụ nhiều điện (100W), tốc độ thấp (10 token/giây) và máy chỉ dùng được 3 năm -> Chi phí cục bộ đắt hơn gấp 10 lần OpenRouter.

Theo góc độ kế toán, việc chạy cục bộ trên M5 Max thường đắt hơn khoảng 3 lần so với việc thuê đám mây.

Tốc độ và Hiệu quả công việc

Tuy nhiên, chi phí không phải là yếu tố duy nhất. Tốc độ suy luận (inference speed) mới là yếu tố quyết định đối với trải nghiệm người dùng.

Các nhà cung cấp trên OpenRouter có thể đạt tốc độ 60-70 token/giây, nhanh hơn gấp 3-7 lần so với tốc độ 10-20 token/giây khi chạy cục bộ trên M5 Max. Đối với một nhân viên đang làm việc, chi phí lương của họ cao hơn gấp hàng nghìn lần so với chi phí token. Việc chờ đợi mô hình cục bộ xử lý chậm chạp có thể gây lãng phí tiền lương nhiều hơn là số tiền tiết kiệm được từ việc không dùng API đám mây.

Kết luận

Mặc dù chạy LLM cục bộ trên Apple Silicon không phải là giải pháp tiết kiệm nhất về mặt tài chính khi xét trên góc độ khấu hao, nhưng nó vẫn là một thành tựu ấn tượng. Việc một thiết bị tiêu dùng có thể chạy các mô hình AI có hiệu suất gần tương đương các phiên bản đám mây cao cấp là một bước tiến lớn của công nghệ phần cứng. Tuy nhiên, đối với các doanh nghiệp và tác vụ cần tốc độ và hiệu quả cao, các giải pháp đám mây như OpenRouter vẫn là lựa chọn tối ưu hơn.