Local Qwen không phải là phiên bản tồi tệ hơn của Opus, đó là một công cụ khác

Bài viết chia sẻ kinh nghiệm thực tế sử dụng mô hình AI cục bộ (như Qwen 27B) thay vì các dịch vụ đám mây cao cấp (Claude Opus). Tác giả lập luận rằng dù không thể thay thế hoàn toàn khả năng của các mô hình hàng đầu, AI nội bộ lại mang lại lợi thế to lớn về quyền riêng tư dữ liệu và chi phí cố định, miễn là người dùng hiểu rõ những hạn chế và rủi ro về tính ổn định của chúng.

Chúng ta thường nghe mọi người nói rằng mô hình Qwen 27B hoặc 35-A3B chạy nội bộ (local) có trình độ "gần như Opus". Tuy nhiên, với tư cách là người sáng lập một doanh nghiệp phần mềm nhỏ và người duy trì các dự án mã nguồn mở, tôi có những bằng chứng thực tế và muốn trung thực với bạn: Qwen không phải là một bản sao kém chất lượng của Opus, mà là một công cụ hoàn toàn khác.

Đây là hành trình của tôi khi áp dụng các mô hình AI nội bộ vào quy trình sản xuất thực tế, từ việc đầu tư phần cứng đắt tiền cho đến những bài học xương máu về tính ổn định.

Cấu hình RTX 6000 Pro

Bối cảnh và sự chuyển dịch của AI

Đội ngũ nhỏ của chúng tôi duy trì các dự án như OpenFaaS, SlicerVM và Actuated.com – những sản phẩm sử dụng các nguyên thủy cấp thấp của Linux như container, Kubernetes và Firecracker microVMs. Chúng tôi viết code bằng Go, sử dụng React cho giao diện và cung cấp hỗ trợ kỹ thuật hạng nhất cho khách hàng doanh nghiệp.

Tôi đã sử dụng các công cụ AI từ những ngày đầu tiên, từ tính năng tab completion trong VS Code đến việc để ChatGPT tạo ra các đoạn code lớn. Khoảng giữa năm 2025 đến đầu năm 2026, chúng ta chứng kiến sự thay đổi lớn khi Claude Opus trở nên đủ tốt để hầu như thay thế hoàn toàn việc viết code thủ công. Tuy nhiên, chi phí cho các gói coding cao cấp dao động khoảng 200 USD/tháng – một mức giá chấp nhận được cho cá nhân nhưng lại là một gánh nặng nếu sử dụng cho tự động hóa quy trình liên tục.

Tại sao lại quan tâm đến AI nội bộ (Local AI)?

Có quan điểm cho rằng: "Tại sao lại dùng thứ gì đó kém hơn tốt nhất mà bạn có thể mua được?". Trong bối cảnh phần mềm hiện nay, bất kỳ ý tưởng nào cũng có thể được sao chép qua đêm bởi một người lạ mặt với một thuê bao AI giá rẻ. Tuy nhiên, có những lý do thuyết phục để chọn các mô hình nội bộ:

Chủ quyền và quyền riêng tư: Chúng tôi làm việc với các khách hàng doanh nghiệp cực kỳ nghiêm ngặt về dữ liệu. Sản phẩm của chúng tôi tập trung vào quyền riêng tư và kiểm soát, vì vậy việc gửi dữ liệu chẩn đoán (diagnostics) lên đám mây là điều tối kỵ.
Rủi ro nhà cung cấp (Vendor Risk): Nếu bạn sống bên ngoài Mỹ, việc mô hình Fable 5 của Anthropic biến mất overnight là một cú sốc. Các mô hình nội bộ là giải pháp cho câu hỏi "Nhẽ ra phải làm gì nếu các phòng lab AI hàng đầu làm X?".
Chi phí cố định: Với việc sử dụng nặng (heavy usage) và các tác vụ agent, chi phí tính theo token (API) có thể tăng vọt rất nhanh.

So sánh sai lầm và sự thật về phần cứng

Nhiều người hô hào rằng các mô hình nội bộ chỉ "thua kém 12%" so với SOTA (State of the Art) dựa trên điểm số benchmark SWE-Bench. Tuy nhiên, benchmark là một mục tiêu di động và không phản ánh hết thực tế. Mô hình nhỏ như Qwen 3.6 27B có thể điểm số khá, nhưng nó thiếu khả năng lập luận và kiến thức sâu rộng của các mô hình hàng đầu với hàng nghìn tỷ tham số.

Tôi luyện dao cụ

Tôi thích so sánh việc làm việc với các mô hình nội bộ giống như "gia công nhiệt" (tempering) một con dao bằng thép. Nếu bạn gia nhiệt quá cao, thép sẽ trở nên giòn và dễ vỡ. Tương tự, các mô hình nội bộ khi chạy quá "nóng" (hoặc bị nén/quan hóa quá mức - quantization) có xu hướng bỏ qua mục tiêu và rơi vào các vòng lặp vô tận (infinite loops). Tôi chưa bao giờ dám để một con dao tự gia nhiệt, cũng như chưa bao giờ dám để Qwen làm việc một mình trong các nhiệm vụ dài hạn mà không có giám sát.

Tôi bắt đầu với một card màn hình RTX 3090 vào năm 2023 và gặp phải vô số vấn đề về ổn định và quản lý năng lượng. Cuối cùng, tôi đã đầu tư khoảng 12.000 USD cho một chiếc card màn hình NVIDIA RTX 6000 Pro Blackwell edition với 96GB VRAM.

Đây là một cược có tính toán, và nó đã hoàn vốn.

Giá trị thực tế và hoàn vốn đầu tư

Điểm mấu chốt khiến khoản đầu tư 12.000 USD này đáng giá nằm ở việc hỗ trợ khách hàng và bảo mật dữ liệu.

Chúng tôi đã xây dựng một công cụ CLI tên là "diag" để chụp nhanh toàn bộ trạng thái cài đặt OpenFaaS của khách hàng. Khách hàng có thể gửi file dump này cho chúng tôi. Thay vì upload dữ liệu nhạy cảm này lên ChatGPT hay Claude (vì lo ngại về hợp đồng bảo mật và lưu trữ dữ liệu), tôi chạy nó qua một mô hình AI nội bộ trong một máy ảo (VM) tách biệt, không kết nối mạng (airgapped).

Câu chuyện ấn tượng nhất là việc thu hồi doanh thu. Gần đây, khi analyzing cơ sở dữ liệu遥测 (telemetry) của một khách hàng thông qua mô hình nội bộ, chúng tôi phát hiện họ đã báo cáo sai số lượng license và trả phí thấp hơn thực tế khoảng 4-5 lần trong suốt 12 tháng qua. Số tiền thu hồi từ việc này một mình đã đủ để chi trả cho chiếc card đồ họa đắt tiền kia. Tôi sẽ không bao giờ dám chạy dữ liệu遥 tế của khách hàng qua bất kỳ gói đám mây nào, bất kể chính sách lưu trữ của họ là gì.

Hạn chế: Vấn đề về vòng lặp và "Toilgate"

Dù phần cứng mạnh mẽ, Qwen vẫn không thay thế được Claude trong việc viết code suốt cả ngày. Nó thường gặp khó khăn với các tác vụ dài hạn (long-horizon tasks) và có xu hướng ảo giác (hallucinate) hoặc lặp lại mãi một đoạn code/thao tác mà không biết cách thoát ra.

Ví dụ, tôi đã nhờ Qwen đề xuất các lệnh mới cho faas-cli. Nó đưa ra một vài đề xuất hợp lý, nhưng sau đó bị kẹt và lặp đi lặp lại danh sách đó liên tục trong nửa tiếng đồng hồ, tiêu tốn 600W điện năng vô ích.

Giao diện Toilgate

Để quản lý việc sử dụng và phân phối quyền truy cập cho đội ngũ, tôi đã xây dựng một hệ thống nội bộ tên là "Toilgate". Nó giúp định tuyến yêu cầu đến các instance llama.cpp khác nhau, giám sát mức tiêu thụ điện năng qua các ổ cắm thông minh và quản lý việc ai đang dùng mô hình nào. Đây là lúc "Local AI" biến thành một bài toán vận hành (Ops problem) đầy thách thức.

Kết luận: Đừng so sánh táo với cam

Local Qwen không phải là "cùng đẳng cấp với Opus" và tôi hy vọng bài viết đã chứng minh đủ rõ điều đó. Tuy nhiên, nó là một công cụ cực kỳ giá trị cho các nhiệm vụ cụ thể:

Hỗ trợ khách hàng không đau đầu, không rò rỉ dữ liệu.
Phân tích dữ liệu遥 tế và logs nhạy cảm.
Đọc và giải thích codebase nhanh chóng (siêu năng lực của nó), ngay cả khi nó không thể viết code phức tạp tốt bằng cloud models.
Thực hiện các tác vụ bảo trì có giới hạn rõ ràng (well-bounded).

Nếu bạn đang cân nhắc đầu tư vào phần cứng để chạy AI nội bộ, hãy nhớ rằng đây là một công cụ khác biệt. Nó giống như một con dao mài sắc handmade: nó có thể làm những việc cụ thể cực kỳ tốt trong tay người thợ lành nghề, nhưng bạn không thể dùng nó để đóng đinh tùy tiện và mong đợi nó không bị gãy.

Đừng giao cho nó các công việc lập trình tự động (agentic work) dài hạn không có giám sát – đó chính là nơi nó rơi vào vòng lặp, và ngay cả chiếc card giá 15.000 USD cũng không thể sửa chữa được lỗi đó.