Thói quen gõ phím của con người và chi phí Token trong AI

Bài viết khám phá cách các thói quen gõ phím như lỗi chính tả hay từ viết tắt ảnh hưởng đến số lượng Token trong các mô hình AI như OpenAI và Claude. Vì nhà cung cấp tính phí dựa trên Token, việc gõ phím không hiệu quả có thể dẫn đến chi phí cao hơn mà không làm thay đổi ý định truyền tải.

Con người gõ phím vì tốc độ, ngữ điệu và thói quen. Các bộ phân tách token (tokenizers) chia nhỏ văn bản dựa trên các mẫu phổ biến, và các nhà cung cấp dịch vụ AI tính phí dựa trên số lượng token này. Điều này có nghĩa là những thói quen bình thường như lỗi chính tả, từ viết tắt, từ đệm, dán ID hoặc khoảng trắng thừa có thể làm thay đổi số lượng token mà không làm thay đổi nhiều ý định của người dùng.

Tôi bắt đầu nhận thấy điều này với một câu lệnh (prompt) rất nhỏ: 5 từ, 2 lỗi chính tả, tổng cộng là 13 token. Sau khi sửa lỗi chính tả và gửi lại, nó chỉ còn 6 token (bao gồm cả dấu chấm câu).

Các số liệu dưới đây sử dụng bộ phân tách token của OpenAI và công cụ dựa trên API của Claude. Nhìn chung, trong quá trình sử dụng của tôi, Claude thường tạo ra nhiều token hơn OpenAI cho cùng một đoạn văn bản. Các số liệu này dành cho các chuỗi ký tự riêng lẻ. Trong các câu lệnh thực tế, số lượng có thể thay đổi nhẹ dựa trên khoảng trắng, dấu câu và chữ hoa/chữ thường xung quanh.

Thói quen gõ phím và chi phí

Chữ cái bị hoán đổi, bỏ sót chữ, gõ trùng chữ, gõ nhầm phím gần nhau: tất cả đều là thói quen gõ phím bình thường và tất cả đều phải trả tiền. Các cách viết phổ biến được nén (ít token hơn). Các cách viết hiếm bị phân mảnh (nhiều token hơn).

Trong lập trình, điều này có thể cộng gộp nhanh chóng: cùng một tên định danh/tên biến/tên hàm sai sẽ xuất hiện trong khai báo, tham chiếu, nhật ký, lỗi, diff, v.v.

Khi tôi gõ để làm việc (mã, câu lệnh, tin nhắn v.v.), tay trái của tôi nhanh hơn tay phải một chút, dẫn đến việc hoán đổi chữ cái. Tôi chưa bao giờ bận tâm sửa lại khi sử dụng Google Search hay tin nhắn. Nhưng bây giờ, sự khác biệt đó dường như có một mô hình định giá riêng.

Một hậu tố nhỏ trông có vẻ vô hại với con người. Tuy nhiên, các bộ phân tách token có thể chia nó rất khác nhau.

Tối ưu hóa cho Tokenizer

Các cuộc trò chuyện của con người mang lại rất nhiều phần đệm tín hiệu thấp:

Những từ này giúp tạo ngữ điệu. Chúng hiếm khi giúp ích cho nhiệm vụ.

Con người tối ưu hóa cho số lần nhấn phím. Các bộ phân tách token tối ưu hóa cho văn bản phổ biến. Hai điều này không giống nhau. Hầu hết thời gian, các từ từ điển tiêu chuẩn sẽ là 1 token và hầu như luôn luôn rõ ràng, cụ thể hơn, và gần với văn bản mà các mô hình ngôn ngữ đã thấy trong quá trình huấn luyện hơn là các từ viết tắt.

Một số thứ không mang tính hội thoại, nhưng xuất hiện trong công việc bình thường và vẫn làm phồng token:

ID ngẫu nhiên
Khoảng trắng thừa
Các mẫu (template)

Mô hình có thể khôi phục ý nghĩa từ tất cả những điều này. Nhưng việc tính phí thì không.

Con người gõ theo thói quen. Các bộ phân tách token tính phí theo mẫu.

Điều này hơi gây khó chịu, bởi vì bây giờ ngay cả việc sửa lỗi trong các mẫu (template) cũng cảm thấy như một hạng mục cần thanh toán để tối ưu hóa chi phí.

Thói quen gõ phím của con người và chi phí Token trong AI

Thói quen gõ phím và chi phí

Tối ưu hóa cho Tokenizer

Bài viết liên quan