Tôi đã so sánh hiệu năng plugin Caveman của Claude Code với hai chữ "be brief"

Một thử nghiệm chi tiết cho thấy việc thêm hai chữ "be brief" vào prompt có thể đạt được hiệu quả tương đương với plugin Caveman nổi tiếng về việc giảm số lượng token và giữ nguyên chất lượng. Tuy nhiên, Caveman vẫn có giá trị riêng nhờ khả năng đảm bảo cấu trúc đầu ra nhất quán và các tính năng an toàn.

Caveman là một plugin nén dữ liệu phổ biến cho Claude Code. Tên gọi đã nói lên tất cả: các phản hồi siêu nén, giảm khoảng 75% số lượng token, nhưng vẫn giữ nguyên độ chính xác kỹ thuật. Plugin này cung cấp sáu chế độ, các lệnh slash, điều chỉnh cường độ và thậm chí là cả các biến thể tiếng cổ điển.

Tôi đã chạy benchmark so sánh nó với hai chữ đơn giản: "be brief" (hãy ngắn gọn).

Kết quả? Chất lượng tương đương. Phạm vi token tương đương. Plugin không vượt qua được cách mặc định nhàm chán này trên bất kỳ phương diện nào.

Thumbnail

Tôi đã kiểm tra những gì?

Tôi đã sử dụng 24 prompt trải rộng trên sáu danh mục: chẩn đoán lỗi, giải thích khái niệm, đánh đổi kiến trúc, thiết lập đa bước, các thao tác hủy/hủy ngược và diễn giải lỗi. Mỗi prompt đều có một tiêu chí đánh giá riêng, bao gồm các sự kiện mà câu trả lời phải bao phủ (key_points), các thuật ngữ bắt buộc phải sử dụng (must_use_terms) và các tuyên bố sai nguy hiểm cần tránh (must_avoid).

Năm phương thức (arms) được kiểm tra:

baseline: Claude mặc định, không có hướng dẫn.
brief: Thêm "Be brief." vào trước mỗi prompt.
lite, full, ultra: Plugin Caveman ở ba mức cường độ khác nhau.

Mỗi phương thức chạy qua bộ dữ liệu 24 prompt trên mô hình claude-opus-4-7. Một phiên bản Claude riêng biệt (claude-sonnet-4-6) đã chấm điểm từng phản hồi dựa trên tiêu chí của prompt đó.

Chất lượng không thay đổi

Kiểm tra đầu tiên: Việc nén có làm giảm tính chính xác không?

Mọi phương thức đều có điểm số chênh lệch trong vòng 1,5% so với nhau. Baseline đạt 0,985, Brief đạt 0,985, Lite 0.976, Full 0.975 và Ultra 0.970. Tất cả đều đạt 100% các điểm chính (key_points). Không có trường hợp nào kích hoạt cảnh báo "must_avoid" trong tổng số 120 phản hồi.

Nén không làm mất đi nội dung thực chất. Bỏ qua chất lượng, trục duy nhất đáng so sánh là số lượng token.

Biểu đồ chất lượng

Kết quả nổi bật về số lượng Token

Trung bình số lượng token cho mỗi phương thức:

Baseline: 636
Brief: 419
Lite: 401
Full: 404
Ultra: 449

"Be brief." đã cắt giảm 34% token so với baseline. Caveman lite và full có kết quả gần tương đương với brief. Tuy nhiên, Ultra - chế độ nghiêm ngặt nhất - lại tạo ra những câu trả lời dài nhất trong ba chế độ của Caveman.

Điều này trông có vẻ xấu cho Ultra, nhưng thực ra là một hiểu lầm.

Biểu đồ số lượng token trung bình

Phân tích theo danh mục

Khi chia nhỏ token theo danh mục, bức tranh trở nên rõ ràng hơn.

Ở các mục như chẩn đoán lỗi, giải thích khái niệm, đánh đổi kiến trúc và diễn giải lỗi, Ultra là ngắn nhất hoặc ngang bằng các chế độ Caveman khác. Cơ chế nén hoạt động đúng như quảng cáo.

Tuy nhiên, ở mục thiết lập đa bước và cảnh báo bảo mật, mọi chế độ Caveman đều trở nên biến động cao hơn. Lý do nằm ở chính kỹ năng của plugin. Caveman có quy tắc "Auto-Clarity" (Tự động làm rõ) explicitly bỏ qua nén đối với các cảnh báo an toàn, hành động không thể đảo ngược và chuỗi thao tác đa bước. Chính xác là hai danh mục này. Khi cơ chế thoát an toàn kích hoạt, cả ba chế độ đều nới lỏng về văn xuôi tự nhiên. Nén đơn giản là không chạy.

Đó không phải là lỗi, mà là một tính năng được thiết kế. Caveman biết khi nào nên dừng nén.

Vậy thực ra Caveman dùng để làm gì?

Nếu một prompt hai chữ có thể sánh ngang về token và chất lượng, thì giá trị của nó không phải là nén. Mà là cấu trúc.

Mọi phản hồi của Caveman đều tuân theo cùng một mẫu:

[thing] [action] [reason]

Điều này có thể dự đoán được theo cách mà "be brief." không làm được. Nếu bạn muốn cảm giác đồng nhất giữa các phiên làm việc, hoặc có công cụ downstream tiêu thụ đầu ra của Claude, sự nhất quán này là giá trị thực.

Ngoài ra còn có:

Núm vặn cường độ (Intensity dial): Lệnh slash để chuyển đổi lite, full, ultra giữa phiên.
Kiên trì qua các phiên dài: Caveman tiêm lại bộ quy tắc vào mỗi prompt.
Cơ chế thoát an toàn: Auto-Clarity bỏ qua nén cho các thao tác hủy dữ liệu.

Một số phát hiện thú vị khác

Lite đã bỏ lỡ một thuật ngữ bắt buộc: Trong một câu hỏi so sánh hàng đợi (SQS vs BullMQ vs Kafka), định dạng bảng markdown của Lite đã nén quá mức khiến nó bỏ lỡ thuật ngữ "at-least-once".
Ultra kích hoạt hành vi sử dụng công cụ: Trong một câu hỏi thiết lập Dockerfile, Ultra đã cố gắng gọi công cụ Write, bị chặn, và sau đó đổ nội dung file vào anyway. Điều này đã thêm ~1300 token vào trung bình của Ultra.

Bạn nên làm gì?

Nếu tất cả những gì bạn muốn là các đầu ra ngắn hơn, hãy bắt đầu với "be brief." trong prompt hoặc CLAUDE.md của bạn. Chỉ hai chữ. Nó sánh ngang với token và chất lượng của Caveman.

Hãy dùng đến Caveman khi bạn cần cấu trúc đầu ra nhất quán qua các phiên. Đó là điểm khác biệt sống sót qua bài benchmark này.

Bài học lớn hơn: Hầu hết các lời khuyên về prompt engineering chưa bao giờ được đo lường so với mặc định nhàm chán. Hãy đo lường nó.

Nguồn: Max Taylor