WhichLLM: Công cụ tìm kiếm mô hình AI tối ưu nhất cho cấu hình máy tính của bạn

WhichLLM là công cụ dòng lệnh giúp tự động phát hiện phần cứng và xếp hạng các mô hình ngôn ngữ lớn (LLM) từ HuggingFace dựa trên hiệu năng thực tế, cho phép người dùng tìm ra mô hình phù hợp nhất để chạy cục bộ.

Trong kỷ nguyên bùng nổ của các mô hình ngôn ngữ lớn (LLM), việc tìm kiếm một mô hình phù hợp để chạy cục bộ trên máy tính cá nhân thường là một thách thức. Bạn có thể tự hỏi liệu card đồ họa của mình có đủ VRAM để chạy mô hình 7B hay 14B, hoặc liệu mô hình nào sẽ mang lại hiệu suất tốt nhất. WhichLLM là một công cụ dòng lệnh mới ra mắt nhằm giải quyết chính vấn đề này.

Demo WhichLLM

Tự động phát hiện và xếp hạng thông minh

Điểm mạnh nhất của WhichLLM nằm ở khả năng tự động phát hiện cấu hình phần cứng của bạn, bao gồm GPU, CPU và RAM. Sau đó, nó sẽ truy xuất dữ liệu trực tiếp từ HuggingFace để xếp hạng các mô hình phù hợp nhất.

Khác với các công cụ chỉ đơn thuần kiểm tra xem mô hình có "vừa" với VRAM hay không, WhichLLM sử dụng phương pháp xếp hạng dựa trên bằng chứng (evidence-based ranking). Nó kết hợp dữ liệu từ các bảng đánh giá uy tín như LiveBench, Artificial Analysis, Aider và Chatbot Arena ELO để đưa ra đề xuất chính xác nhất.

Tính năng nổi bật

Xếp hạng dựa trên hiệu năng thực tế: Công cụ ưu tiên các mô hình có điểm benchmark cao hơn, ngay cả khi kích thước của chúng nhỏ hơn một mô hình khác nhưng có điểm số thấp hơn.
Nhạy cảm về thời gian: Các bảng xếp hạng cũ kỹ sẽ bị hạ cấp, đảm bảo rằng các mô hình thế hệ mới luôn được ưu tiên.
Mô phỏng phần cứng: Bạn có thể sử dụng cờ --gpu để mô phỏng bất kỳ card đồ họa nào (ví dụ: whichllm --gpu "RTX 4090") nhằm xem mô hình nào sẽ chạy tốt nhất trước khi quyết định nâng cấp phần cứng.
Hỗ trợ đa nền tảng: Hoạt động tốt với NVIDIA, AMD, Apple Silicon và cả chế độ chỉ dùng CPU.

Cách sử dụng

Việc cài đặt và sử dụng WhichLLM cực kỳ đơn giản. Bạn có thể cài đặt qua pipx:

Python Version

pipx install whichllm

Sau khi cài đặt, chỉ cần chạy lệnh sau để xem đề xuất tốt nhất cho máy của bạn:

whichllm

Nếu bạn muốn thử nghiệm với một cấu hình cụ thể hoặc lập kế hoạch mua sắm:

whichllm --gpu "RTX 4090"

Kết quả sẽ hiển thị danh sách các mô hình, bao gồm tên, số lượng tham số, loại lượng tử hóa (quantization), điểm số và tốc độ dự kiến (tokens/giây).

Ngoài ra, WhichLLM còn cung cấp tính năng run để tải và chạy mô hình ngay lập tức, hoặc snippet để tạo mã Python sẵn sàng sử dụng.

Kết luận

WhichLLM là một công cụ hữu ích cho các nhà phát triển và những người đam mê AI muốn tận dụng sức mạnh của các LLM cục bộ. Việc loại bỏ sự đoán mò trong việc lựa chọn mô hình giúp tiết kiệm thời gian và tối ưu hóa hiệu suất làm việc.

License MIT

Dự án này hiện đang được phát triển mạnh mẽ trên GitHub và hoàn toàn miễn phí theo giấy phép MIT.