Forge: Lớp bảo vệ giúp mô hình LLM cục bộ 8B đạt 99% độ chính xác trên các tác vụ phức tạp

Forge là một khung phần mềm mã nguồn mở giúp nâng cao độ tin cậy cho các mô hình ngôn ngữ lớn (LLM) tự lưu trữ. Nhờ các lớp bảo vệ thông minh, công cụ này có thể nâng độ chính xác của một mô hình 8B từ 53% lên tới 99% trên các tác vụ đa bước mà không cần thay đổi mô hình gốc. Đây là giải pháp tối ưu để chạy các tác vụ AI phức tạp ngay trên phần cứng cá nhân với chi phí thấp.

PyPI Version Tests Tests Codecov Codecov Python Version License License

Antoine Zambelli, Giám đốc AI tại Texas Instruments, đã giới thiệu Forge – một lớp độ tin cậy mã nguồn mở dành cho việc gọi công cụ (tool-calling) trên các mô hình ngôn ngữ lớn (LLM) tự lưu trữ. Mục tiêu của dự án này là giải quyết vấn đề "toán học tích lũy" trong các quy trình đa bước, nơi mà độ chính xác 90% trên từng bước riêng lẻ vẫn dẫn đến tỷ lệ thất bại tổng thể lên tới 40% trong quy trình 5 bước.

Vấn đề của các tác nhân AI cục bộ

Khi chạy các hệ thống tác nhân (agentic systems) liên tục trên phần cứng cá nhân, người dùng thường đối mặt với sự không ổn định mà các khung làm việc hiện tại chưa giải quyết triệt để. Hầu hết các framework hiện nay đều được thiết kế tối ưu cho các mô hình đám mây cao cấp (frontier models) thay vì các mô hình cục bộ nhỏ gọn.

Forge ra đời để lấp đầy khoảng trống này bằng cách thêm các lớp bảo vệ (guardrails) không phụ thuộc vào lĩnh vực hay công cụ cụ thể. Các tính năng bao gồm gợi ý thử lại (retry nudges), thực thi bước (step enforcement), khôi phục lỗi (error recovery) và quản lý ngữ cảnh nhận thức về VRAM.

Hiệu suất vượt trội

Điểm ấn tượng nhất của Forge là khả năng nâng cao hiệu suất mà không cần thay đổi mô hình gốc. Theo các bài kiểm tra đánh giá:

Mô hình Ministral 8B kết hợp với Forge đạt độ chính xác 99,3%.
Claude Sonnet với Forge đạt 100%.
Khoảng cách hiệu suất giữa một mô hình cục bộ 8B miễn phí chạy trên GPU giá 600 USD và các API đám mây đắt đỏ hiện nay là chưa đến 1 điểm.

Đáng chú ý, mô hình 8B cục bộ có hỗ trợ Forge (99,3%) thậm chí còn vượt trội hơn Claude Sonnet khi không có lớp bảo vệ (87,2%). Điều này chứng minh rằng một mô hình nhỏ với sự hỗ trợ của framework tốt có thể đánh bại kết quả tốt nhất thu được từ API cao cấp đơn lẻ.

Cơ chế hoạt động của 5 lớp bảo vệ

Hệ thống bảo vệ của Forge bao gồm 5 lớp, mỗi lớp có thể bật/tắt độc lập. Nghiên cứu cho thấy hai lớp quan trọng nhất mang lại tác động lớn nhất là:

Retry Nudges (Gợi ý thử lại): Khi bị vô hiệu hóa, điểm số có thể giảm từ 24 đến 49 điểm.
Error Recovery (Khôi phục lỗi): Gây giảm khoảng 10 điểm khi tắt, có ý nghĩa thống kê quan trọng đối với mọi mô hình được kiểm tra.

Ngoài ra, Forge còn giới thiệu một lớp ngoại lệ mới gọi là ToolResolutionError. Zambelli chỉ ra rằng trong việc gọi công cụ của LLM hiện tại, không có sự phân biệt giữa "công cụ chạy thành công và trả về dữ liệu" và "công cụ chạy thành công nhưng không tìm thấy gì". Forge giải quyết vấn đề này tương tự như cách HTTP phân biệt mã 200 và 404, giúp mô hình nhận biết lỗi và thử lại thay vì âm thầm truyền dữ liệu rác xuống dòng.

Tầm quan trọng của Backend phục vụ

Một phát hiện bất ngờ từ nghiên cứu là phần mềm phục vụ (backend) đóng vai trò cực kỳ quan trọng. Cùng một trọng số mô hình Mistral-Nemo 12B có thể cho độ chính xác 7% trên llama-server với chức năng gọi hàm gốc, nhưng tăng vọt lên 83% trên Llamafile ở chế độ prompt. Sự chênh lệch tới 75 điểm này hoàn toàn đến từ hạ tầng, một khía cạnh mà các tiêu chuẩn đánh giá phổ biến thường không kiểm soát.

Quản lý ngữ cảnh và bộ nhớ

Thách thức kỹ thuật lớn nhất mà Forge giải quyết là nén ngữ cảnh (context compaction) cho phần cứng bị giới hạn bộ nhớ. Cả Ollama và Llamafile đều tự động chuyển sang CPU khi mô hình vượt quá VRAM, khiến tốc độ suy luận chậm đi 10-100 lần mà không có cảnh báo. Forge truy vấn nvidia-smi khi khởi động để tính toán ngân sách token, ngăn chặn việc chuyển sang CPU một cách thầm lặng này.

Cách sử dụng Forge

Có ba cách chính để sử dụng Forge:

WorkflowRunner: Định nghĩa công cụ, chọn backend và chạy các vòng lặp tác nhân có cấu trúc. Forge quản lý toàn bộ vòng đời từ lời nhắc hệ thống đến thực thi công cụ.
Guardrails Middleware: Sử dụng ngăn xếp độ tin cậy của Forge bên trong vòng lặp điều phối của riêng bạn.
Proxy Server: Một proxy tương thích OpenAI thay thế thả vào (drop-in), nằm giữa bất kỳ khách hàng nào (như OpenCode, Continue, Aider) và máy chủ mô hình cục bộ. Nó áp dụng các lớp bảo vệ một cách trong suốt.

Để bắt đầu nhanh với Proxy Server, người dùng có thể chạy lệnh:

python -m forge.proxy --backend-url http://localhost:8080 --port 8081

Sau đó cấu hình client để sử dụng http://localhost:8081/v1 làm URL cơ sở API.

Kết luận

Forge là một bước tiến quan trọng đối với cộng đồng AI mã nguồn mở, đặc biệt là những người muốn tận dụng sức mạnh của các mô hình cục bộ. Bằng cách giải quyết các vấn đề về độ tin cậy cơ học thay vì chỉ tập trung vào khả năng của mô hình, Forge mở ra cơ hội chạy các hệ thống tác nhân phức tạp ngay tại nhà với hiệu suất tương đương các dịch vụ đám mây đắt đỏ.

Dự án đã được chấp nhận trình bày tại hội nghị ACM CAIS '26 vào tháng 5 năm nay. Mã nguồn và tài liệu chi tiết đã có sẵn trên GitHub để cộng đồng khám phá và đóng góp.

Repo: https://github.com/antoinezambelli/forge

Forge: Lớp bảo vệ giúp mô hình LLM cục bộ 8B đạt 99% độ chính xác trên các tác vụ phức tạp

Vấn đề của các tác nhân AI cục bộ

Hiệu suất vượt trội

Cơ chế hoạt động của 5 lớp bảo vệ

Tầm quan trọng của Backend phục vụ

Quản lý ngữ cảnh và bộ nhớ

Cách sử dụng Forge

Kết luận

Bài viết liên quan