Needle: Mô hình AI 26 triệu tham số được chắt lọc từ Gemini, chạy siêu nhanh trên thiết bị cá nhân

Phần mềm12 tháng 5, 2026·3 phút đọc

Cactus đã công bố Needle, một mô hình gọi hàm (function calling) chỉ có 26 triệu tham số, đạt tốc độ xử lý ấn tượng trên các thiết bị tiêu dùng như điện thoại và máy tính cá nhân. Mô hình sử dụng kiến trúc Simple Attention Networks loại bỏ MLP, chứng minh hiệu quả vượt trội so với các mô hình lớn hơn trong tác vụ sử dụng công cụ.

Needle: Mô hình AI 26 triệu tham số được chắt lọc từ Gemini, chạy siêu nhanh trên thiết bị cá nhân

Needle BannerNeedle Banner

Henry từ đội ngũ Cactus đã giới thiệu Needle, một mô hình trí tuệ nhân tạo siêu nhỏ gọn chỉ có 26 triệu tham số, được thiết kế chuyên biệt cho khả năng gọi hàm (function calling) và sử dụng công cụ (tool use). Điểm đặc biệt của mô hình này là nó được chắt lọc (distill) từ Gemini và có khả năng chạy với tốc độ cực nhanh ngay trên các thiết bị phần cứng phổ thông như điện thoại, đồng hồ thông minh hay kính AR.

Needle hoạt động với tốc độ khoảng 6.000 token/giây ở giai đoạn prefill và 1.200 token/giây khi giải mã (decode), mang lại phản hồi gần như tức thì cho người dùng. Đây là một bước tiến quan trọng trong việc đưa các tác vụ AI Agent lên thiết bị biên (edge devices) mà không cần phụ thuộc vào máy chủ đám mây.

Kiến trúc Simple Attention Networks

Sự đột phá của Needle nằm ở kiến trúc "Simple Attention Networks" (Mạng chú ý đơn giản). Thay vì sử dụng các mạng nơ-ron truyền tiếp đa tầng (MLP) phức tạp và tốn kém tài nguyên như các mô hình truyền thống, Needle chỉ sử dụng cơ chế chú ý (attention) và cổng điều khiển (gating).

Cấu trúc kiến trúc NeedleCấu trúc kiến trúc Needle

Nhóm phát triển nhận định rằng việc gọi hàm về bản chất không phải là suy luận (reasoning) mà là quá trình "truy xuất và lắp ráp" (retrieval-and-assembly). Nhiệm vụ này bao gồm việc khớp truy vấn với tên công cụ, trích xuất các giá trị đối số và xuất ra định dạng JSON. Do đó, các tham số MLP trong các mô hình lớn là dư thừa đối với tác vụ này, và cơ chế cross-attention (chú ý chéo) mới là nguyên mẫu phù hợp nhất.

Hiệu năng và Quy trình đào tạo

Mặc dù cực kỳ nhỏ gọn, Needle đã chứng minh hiệu suất vượt trội so với các đối thủ nặng đô hơn nhiều trong các bài kiểm tra gọi hàm đơn lẻ. Cụ thể, nó đánh bại FunctionGemma-270M, Qwen-0.6B, Granite-350M và LFM2.5-350M.

Quá trình đào tạo mô hình này diễn ra thần tốc nhờ tối ưu hóa phần cứng:

  • Huấn luyện trước (Pretraining): 200 tỷ token trên 16 TPU v6e trong vòng 27 giờ.
  • Huấn luyện sau (Post-training): 2 tỷ token dữ liệu gọi hàm tổng hợp trong 45 phút.

Bộ dữ liệu được tổng hợp tự động thông qua Gemini, bao gồm 15 danh mục công cụ khác nhau như hẹn giờ, nhắn tin, điều hướng và nhà thông minh.

Dễ dàng tùy chỉnh và Triển khai

Needle được phát hành dưới giấy phép MIT, cho phép các nhà phát triển tự do sử dụng, nghiên cứu và sửa đổi. Toàn bộ mã nguồn, trọng số (weights) và quy trình tạo dữ liệu đều được công khai.

Bạn có thể dễ dàng chạy thử nghiệm và tinh chỉnh (finetune) mô hình ngay trên máy Mac hoặc PC cá nhân của mình thông qua giao diện dòng lệnh hoặc web UI đơn giản.

Để bắt đầu nhanh với Needle, bạn có thể sử dụng các lệnh sau sau khi clone kho lưu trữ từ GitHub:

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Lệnh trên sẽ mở một giao diện web tại địa chỉ http://127.0.0.1:7860, nơi bạn có thể kiểm tra khả năng gọi hàm và finetune mô hình cho các công cụ riêng của mình chỉ với một cú nhấp chuột.

Đây là một phần trong dự án Cactus rộng lớn hơn — một động cơ suy luận (inference engine) được xây dựng từ đầu dành cho thiết bị di động, thiết bị đeo và phần cứng tùy chỉnh, hứa hẹn tương lai của AI cá nhân thực sự riêng tư và hiệu quả.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗