Needle: Mô hình AI 26 triệu tham số được chắt lọc từ Gemini, chạy siêu nhanh trên thiết bị cá nhân
Cactus đã công bố Needle, một mô hình gọi hàm (function calling) chỉ có 26 triệu tham số, đạt tốc độ xử lý ấn tượng trên các thiết bị tiêu dùng như điện thoại và máy tính cá nhân. Mô hình sử dụng kiến trúc Simple Attention Networks loại bỏ MLP, chứng minh hiệu quả vượt trội so với các mô hình lớn hơn trong tác vụ sử dụng công cụ.

Needle Banner
Henry từ đội ngũ Cactus đã giới thiệu Needle, một mô hình trí tuệ nhân tạo siêu nhỏ gọn chỉ có 26 triệu tham số, được thiết kế chuyên biệt cho khả năng gọi hàm (function calling) và sử dụng công cụ (tool use). Điểm đặc biệt của mô hình này là nó được chắt lọc (distill) từ Gemini và có khả năng chạy với tốc độ cực nhanh ngay trên các thiết bị phần cứng phổ thông như điện thoại, đồng hồ thông minh hay kính AR.
Needle hoạt động với tốc độ khoảng 6.000 token/giây ở giai đoạn prefill và 1.200 token/giây khi giải mã (decode), mang lại phản hồi gần như tức thì cho người dùng. Đây là một bước tiến quan trọng trong việc đưa các tác vụ AI Agent lên thiết bị biên (edge devices) mà không cần phụ thuộc vào máy chủ đám mây.
Kiến trúc Simple Attention Networks
Sự đột phá của Needle nằm ở kiến trúc "Simple Attention Networks" (Mạng chú ý đơn giản). Thay vì sử dụng các mạng nơ-ron truyền tiếp đa tầng (MLP) phức tạp và tốn kém tài nguyên như các mô hình truyền thống, Needle chỉ sử dụng cơ chế chú ý (attention) và cổng điều khiển (gating).
Cấu trúc kiến trúc Needle
Nhóm phát triển nhận định rằng việc gọi hàm về bản chất không phải là suy luận (reasoning) mà là quá trình "truy xuất và lắp ráp" (retrieval-and-assembly). Nhiệm vụ này bao gồm việc khớp truy vấn với tên công cụ, trích xuất các giá trị đối số và xuất ra định dạng JSON. Do đó, các tham số MLP trong các mô hình lớn là dư thừa đối với tác vụ này, và cơ chế cross-attention (chú ý chéo) mới là nguyên mẫu phù hợp nhất.
Hiệu năng và Quy trình đào tạo
Mặc dù cực kỳ nhỏ gọn, Needle đã chứng minh hiệu suất vượt trội so với các đối thủ nặng đô hơn nhiều trong các bài kiểm tra gọi hàm đơn lẻ. Cụ thể, nó đánh bại FunctionGemma-270M, Qwen-0.6B, Granite-350M và LFM2.5-350M.
Quá trình đào tạo mô hình này diễn ra thần tốc nhờ tối ưu hóa phần cứng:
- Huấn luyện trước (Pretraining): 200 tỷ token trên 16 TPU v6e trong vòng 27 giờ.
- Huấn luyện sau (Post-training): 2 tỷ token dữ liệu gọi hàm tổng hợp trong 45 phút.
Bộ dữ liệu được tổng hợp tự động thông qua Gemini, bao gồm 15 danh mục công cụ khác nhau như hẹn giờ, nhắn tin, điều hướng và nhà thông minh.
Dễ dàng tùy chỉnh và Triển khai
Needle được phát hành dưới giấy phép MIT, cho phép các nhà phát triển tự do sử dụng, nghiên cứu và sửa đổi. Toàn bộ mã nguồn, trọng số (weights) và quy trình tạo dữ liệu đều được công khai.
Bạn có thể dễ dàng chạy thử nghiệm và tinh chỉnh (finetune) mô hình ngay trên máy Mac hoặc PC cá nhân của mình thông qua giao diện dòng lệnh hoặc web UI đơn giản.
Để bắt đầu nhanh với Needle, bạn có thể sử dụng các lệnh sau sau khi clone kho lưu trữ từ GitHub:
git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground
Lệnh trên sẽ mở một giao diện web tại địa chỉ http://127.0.0.1:7860, nơi bạn có thể kiểm tra khả năng gọi hàm và finetune mô hình cho các công cụ riêng của mình chỉ với một cú nhấp chuột.
Đây là một phần trong dự án Cactus rộng lớn hơn — một động cơ suy luận (inference engine) được xây dựng từ đầu dành cho thiết bị di động, thiết bị đeo và phần cứng tùy chỉnh, hứa hẹn tương lai của AI cá nhân thực sự riêng tư và hiệu quả.
Bài viết liên quan

Phần mềm
Plugin Checkmarx Jenkins bị xâm phạm trong cuộc tấn công chuỗi cung ứng
11 tháng 5, 2026

Công nghệ
Substrate (YC S24) tuyển dụng Technical Success Manager cho nền tảng AI chuyên xử lý thanh toán y tế
13 tháng 5, 2026

Phần mềm
Bun công bố hướng dẫn chuyển đổi sang Rust, nhưng gọi dự án viết lại là "chưa chín muồi"
05 tháng 5, 2026
