Forge: Lớp bảo vệ giúp mô hình LLM cục bộ 8B đạt 99% độ chính xác trên các tác vụ phức tạp
Forge là một khung phần mềm mã nguồn mở giúp nâng cao độ tin cậy cho các mô hình ngôn ngữ lớn (LLM) tự lưu trữ. Nhờ các lớp bảo vệ thông minh, công cụ này có thể nâng độ chính xác của một mô hình 8B từ 53% lên tới 99% trên các tác vụ đa bước mà không cần thay đổi mô hình gốc. Đây là giải pháp tối ưu để chạy các tác vụ AI phức tạp ngay trên phần cứng cá nhân với chi phí thấp.

Forge: Lớp bảo vệ giúp mô hình LLM cục bộ 8B đạt 99% độ chính xác trên các tác vụ phức tạp
PyPI Version
Tests
Codecov
Python Version
License
Antoine Zambelli, Giám đốc AI tại Texas Instruments, đã giới thiệu Forge – một lớp độ tin cậy mã nguồn mở dành cho việc gọi công cụ (tool-calling) trên các mô hình ngôn ngữ lớn (LLM) tự lưu trữ. Mục tiêu của dự án này là giải quyết vấn đề "toán học tích lũy" trong các quy trình đa bước, nơi mà độ chính xác 90% trên từng bước riêng lẻ vẫn dẫn đến tỷ lệ thất bại tổng thể lên tới 40% trong quy trình 5 bước.
Vấn đề của các tác nhân AI cục bộ
Khi chạy các hệ thống tác nhân (agentic systems) liên tục trên phần cứng cá nhân, người dùng thường đối mặt với sự không ổn định mà các khung làm việc hiện tại chưa giải quyết triệt để. Hầu hết các framework hiện nay đều được thiết kế tối ưu cho các mô hình đám mây cao cấp (frontier models) thay vì các mô hình cục bộ nhỏ gọn.
Forge ra đời để lấp đầy khoảng trống này bằng cách thêm các lớp bảo vệ (guardrails) không phụ thuộc vào lĩnh vực hay công cụ cụ thể. Các tính năng bao gồm gợi ý thử lại (retry nudges), thực thi bước (step enforcement), khôi phục lỗi (error recovery) và quản lý ngữ cảnh nhận thức về VRAM.
Hiệu suất vượt trội
Điểm ấn tượng nhất của Forge là khả năng nâng cao hiệu suất mà không cần thay đổi mô hình gốc. Theo các bài kiểm tra đánh giá:
- Mô hình Ministral 8B kết hợp với Forge đạt độ chính xác 99,3%.
- Claude Sonnet với Forge đạt 100%.
- Khoảng cách hiệu suất giữa một mô hình cục bộ 8B miễn phí chạy trên GPU giá 600 USD và các API đám mây đắt đỏ hiện nay là chưa đến 1 điểm.
Đáng chú ý, mô hình 8B cục bộ có hỗ trợ Forge (99,3%) thậm chí còn vượt trội hơn Claude Sonnet khi không có lớp bảo vệ (87,2%). Điều này chứng minh rằng một mô hình nhỏ với sự hỗ trợ của framework tốt có thể đánh bại kết quả tốt nhất thu được từ API cao cấp đơn lẻ.
Cơ chế hoạt động của 5 lớp bảo vệ
Hệ thống bảo vệ của Forge bao gồm 5 lớp, mỗi lớp có thể bật/tắt độc lập. Nghiên cứu cho thấy hai lớp quan trọng nhất mang lại tác động lớn nhất là:
- Retry Nudges (Gợi ý thử lại): Khi bị vô hiệu hóa, điểm số có thể giảm từ 24 đến 49 điểm.
- Error Recovery (Khôi phục lỗi): Gây giảm khoảng 10 điểm khi tắt, có ý nghĩa thống kê quan trọng đối với mọi mô hình được kiểm tra.
Ngoài ra, Forge còn giới thiệu một lớp ngoại lệ mới gọi là ToolResolutionError. Zambelli chỉ ra rằng trong việc gọi công cụ của LLM hiện tại, không có sự phân biệt giữa "công cụ chạy thành công và trả về dữ liệu" và "công cụ chạy thành công nhưng không tìm thấy gì". Forge giải quyết vấn đề này tương tự như cách HTTP phân biệt mã 200 và 404, giúp mô hình nhận biết lỗi và thử lại thay vì âm thầm truyền dữ liệu rác xuống dòng.
Tầm quan trọng của Backend phục vụ
Một phát hiện bất ngờ từ nghiên cứu là phần mềm phục vụ (backend) đóng vai trò cực kỳ quan trọng. Cùng một trọng số mô hình Mistral-Nemo 12B có thể cho độ chính xác 7% trên llama-server với chức năng gọi hàm gốc, nhưng tăng vọt lên 83% trên Llamafile ở chế độ prompt. Sự chênh lệch tới 75 điểm này hoàn toàn đến từ hạ tầng, một khía cạnh mà các tiêu chuẩn đánh giá phổ biến thường không kiểm soát.
Quản lý ngữ cảnh và bộ nhớ
Thách thức kỹ thuật lớn nhất mà Forge giải quyết là nén ngữ cảnh (context compaction) cho phần cứng bị giới hạn bộ nhớ. Cả Ollama và Llamafile đều tự động chuyển sang CPU khi mô hình vượt quá VRAM, khiến tốc độ suy luận chậm đi 10-100 lần mà không có cảnh báo. Forge truy vấn nvidia-smi khi khởi động để tính toán ngân sách token, ngăn chặn việc chuyển sang CPU một cách thầm lặng này.
Cách sử dụng Forge
Có ba cách chính để sử dụng Forge:
- WorkflowRunner: Định nghĩa công cụ, chọn backend và chạy các vòng lặp tác nhân có cấu trúc. Forge quản lý toàn bộ vòng đời từ lời nhắc hệ thống đến thực thi công cụ.
- Guardrails Middleware: Sử dụng ngăn xếp độ tin cậy của Forge bên trong vòng lặp điều phối của riêng bạn.
- Proxy Server: Một proxy tương thích OpenAI thay thế thả vào (drop-in), nằm giữa bất kỳ khách hàng nào (như OpenCode, Continue, Aider) và máy chủ mô hình cục bộ. Nó áp dụng các lớp bảo vệ một cách trong suốt.
Để bắt đầu nhanh với Proxy Server, người dùng có thể chạy lệnh:
python -m forge.proxy --backend-url http://localhost:8080 --port 8081
Sau đó cấu hình client để sử dụng http://localhost:8081/v1 làm URL cơ sở API.
Kết luận
Forge là một bước tiến quan trọng đối với cộng đồng AI mã nguồn mở, đặc biệt là những người muốn tận dụng sức mạnh của các mô hình cục bộ. Bằng cách giải quyết các vấn đề về độ tin cậy cơ học thay vì chỉ tập trung vào khả năng của mô hình, Forge mở ra cơ hội chạy các hệ thống tác nhân phức tạp ngay tại nhà với hiệu suất tương đương các dịch vụ đám mây đắt đỏ.
Dự án đã được chấp nhận trình bày tại hội nghị ACM CAIS '26 vào tháng 5 năm nay. Mã nguồn và tài liệu chi tiết đã có sẵn trên GitHub để cộng đồng khám phá và đóng góp.
Bài viết liên quan

Công nghệ
Cerebras, đối tác thân thiết của OpenAI, sẵn sàng cho đợt IPO kỷ lục định giá tới 26,6 tỷ USD
04 tháng 5, 2026

Công nghệ
Microsoft giới thiệu Surface Pro 12 và Surface Laptop 8: Sức mạnh chip Intel, giá thành gây sốc
19 tháng 5, 2026
Công nghệ
Trang web ngăn chặn tự tử tại Hà Lan bị phát hiện chia sẻ dữ liệu người dùng cho các công ty công nghệ
13 tháng 5, 2026
