Thử nghiệm dùng Claude kiếm tiền từ Algora Bounties: Dữ liệu và công cụ phân tích

Tác giả đã thực hiện một thử nghiệm nhằm sử dụng tác nhân AI Claude để kiếm tiền từ các dự án mã nguồn mở trên nền tảng Algora. Dù không thu về lợi nhuận, dữ liệu thu được đã vẽ nên bức tranh thực tế về sự bão hòa của thị trường bounty hiện nay.

Vài ngày trước, một tweet từ @chatgpt21 đã lan truyền nhanh chóng, cho thấy một tác nhân AI viết mã (AI coding agent) đã chạy tự chủ trong 22 giờ, tự tìm thấy một bounty (phần thưởng), gửi PR và nhận được 16,88 USD. Với 22 triệu token đã tiêu thụ, đây thực sự là đồng đô la đầu tiên được kiếm được một cách tự động. Chủ đề tweet đầy tự hào: "vòng lặp này hoạt động hiệu quả".

Tôi muốn xem liệu mình có thể tái hiện kết quả này với ngân sách 20 USD cho token, sử dụng Claude làm tác nhân hay không. Tôi đã chọn Algora — nền tảng bounty mã nguồn mở nơi các bảo trì viên (maintainers) gán một số tiền cụ thể cho vấn đề trên GitHub và PR chấp nhận đầu tiên sẽ nhận được tiền — làm bệ phóng tương tự nhất với mô tả trong tweet.

48 giờ sau, tôi có 0 USD và một số dữ liệu mà tôi nghĩ thú vị hơn nhiều so với một chiến thắng giả định.

Thiết lập thử nghiệm

Kế hoạch trên giấy tờ rất đơn giản:

Khám phá các bounty mở thông qua bảng công khai Algora hoặc tìm kiếm nhãn (label) trên GitHub.
Chọn một vấn đề nhỏ, có phạm vi rõ ràng bằng TypeScript / Python / Go (để con người có thể dễ dàng kiểm tra).
Để Claude clone kho lưu trữ (repo), thử sửa lỗi, chạy kiểm thử.
Xem xét diff (sự khác biệt mã nguồn) bởi con người trước khi đẩy PR.
Dừng lại cứng khi chi phí token đạt 20 USD.

Việc kiểm soát ngân sách và cổng xem xét của con người là hai rào chắn an toàn thực sự. Mọi thứ khác đều do Claude điều khiển từ bên trong phiên chat: gh CLI, git, Edit, Bash. Khoảng 30 phút công việc chuẩn bị và chúng tôi đã sẵn sàng thử nghiệm.

Bounty đầu tiên tôi nhìn vào là archestra-ai/archestra#3859, một phần thưởng 100 USD trên repo TypeScript. Chỉ hai phút đọc là đủ để nhận ra chúng ta không nên chạm vào nó:

Nó mang nhãn vàng "Reserved for SE interview" (Dành cho ứng viên phỏng vấn): "Vui lòng không nhận nếu bạn không đang phỏng vấn". Bounty này bị giới hạn cho ứng viên tuyển dụng.
Người bảo trì đã công khai cấm người dùng @sumithkumar07 vào tuần đó vì "cố gắng đánh cắp bounty của người dùng khác".
Vấn đề này đã có hai PR được gửi (#4311 và #4613) và một bản WIP (đang làm) từ người săn bounty thứ ba.

Kết luận: Xác suất trả tiền thấp, xác suất bị tài khoản GitHub gắn cờ cao. Bỏ qua.

Đó là phiên bản lịch sự của những gì diễn ra với mọi bounty sau đó.

Dữ liệu thực tế cho thấy điều gì

Tôi đã xây dựng một công cụ nhỏ (scout.py, khoảng vài trăm dòng) để liệt kê các vấn đề có nhãn Algora mở thông qua lệnh gh search issues --label "💎 Bounty", lọc bỏ rác và xem xét:

Số tiền (mã hóa trong nhãn như $50, $150).
Các bình luận /attempt (bao nhiêu người giơ tay nhận).
Người được giao vấn đề (người mà bảo trì viên chọn).
Số lượng PR đang mở liên kết lại với vấn đề (ai thực sự gửi code).
Số ngày kể từ bình luận cuối cùng (tín hiệu ước tính xem vấn đề có bị bỏ quên không).

Trong lần quét thực sự đầu tiên (80 vấn đề bounty mới, không rác), mọi thứ đều rơi vào một trong ba nhóm:

Nhóm 1: Spam sandbox giá $1

Một repo tên là UnsafeLabs/Bounty-Hunters đã đăng khoảng 30 vấn đề trong một ngày, tất cả đều 1 USD. Công việc sửa chữa thấp hơn chi phí token để thử nghiệm. Được lọc tự động.

Nhóm 2: Đã bão hòa

Mọi bounty hợp pháp từ 50 USD đến 1.000 USD đều có từ 8 đến 158 lượt thử chỉ trong vài giờ sau khi đăng, và 8 đến 10 PR đang mở đã được gửi. Mẫu từ nhóm bounty đang hoạt động:

Kho lưu trữ	Giá trị ($)	Lượt thử	PR đang mở
tscircuit/dsn-converter#54	170	158	10+
tscircuit/schematic-trace-solver#29	100	52	10+
rohitdash08/FinMind#121	500	37	9
arakoodev/EdgeChains#290	50	20	10+

Bạn không đang chờ đợi nhu cầu. Bạn là PR thứ 11 trong một hàng đợi mà người bảo trì đã phớt lờ cả tuần.

Nhóm 3: Đã giao, chưa chạm vào và bị khóa

Một số ít bounty có người bảo trì công khai nói "@hunter, bạn được giao nhiệm vụ, hãy tiếp tục", nhưng người được chọn lại im lặng nhiều ngày, trong khi các đối thủ cạnh tranh tìm cách gửi PR bị đóng mà không được merge vì can thiệp.

Điều làm hỏng thị trường chính là thứ đã làm cho tweet ban đầu thành công: các tác nhân AI hiện nay đủ nhanh để nhận bounty chỉ trong vài phút sau khi nó được đăng. Quy trình xem xét của người bảo trì không thể hấp thụ 10 PR cho mỗi vấn đề. Họ chọn một và từ chối phần còn lại. Giá trị kỳ vọng khi là PR thứ 11 xấp xỉ 0 USD.

Tôi khá tự tin chiến thắng 16,88 USD ban đầu là trên một nền tảng bảo mật/kiểm toán riêng tư, không phải trên kênh mã nguồn mở công khai. Các bình luận trong chủ đề gốc đề cập đến "nền tảng bảo mật" và "giới hạn thanh toán được bảo toàn", ngôn ngữ này phù hợp hơn với công việc kiểu HackerOne/Bugcrowd hơn là gh pr create.

Công cụ tôi đã xây dựng

Chiến lược thú vị tôi thử sau khi nhìn chằm chằm vào dữ liệu một lúc không phải là cạnh tranh với các tác nhân đua nhau để về nhất. Đó là chờ đợi họ bỏ cuộc. Những người săn bounty nhận nhiệm vụ hung hăng nhưng thực hiện không nhất quán. Một vấn đề mà ai đó đã được giao chính thức nhưng không gửi PR sau 14+ ngày im lặng có thể đã bị bỏ rơi.

scout.py chạy trong hai lượt:

Kéo 60 đến 80 vấn đề bounty mở; lọc bỏ các vấn đề đã thưởng, đã dành riêng, rác và số tiền không phù hợp.
Với mỗi vấn đề còn lại: đếm bình luận /attempt, tìm bất kỳ PR liên kết nào (mở, đóng hoặc đã merge), đo số ngày kể từ bình luận cuối cùng.

Nó gắn cờ một bounty là RIPE (Chín muồi) nếu: đã được nhận, không có PR mở, và đã im lặng trong 14+ ngày. Nó so sánh với lần quét trước và gắn thẻ 🆕 các ứng viên chín muồi mới giữa các lần chạy.

Tôi đã quét ba lần trong hai ngày. Không có ứng viên chín muồi nào. Một trường hợp ranh giới (Archestra #4461 ở trên, hiện đang cũ 2,2 ngày) là thứ duy nhất đang trên đường chín muồi.

Tôi nghĩ chiến lược này vẫn hợp lý. Nó chỉ cần nhiều thời gian lịch hơn những gì tôi dành ra. Hai đến bốn tuần quan sát kiên nhẫn có thể hé lộ một ứng viên thực sự. Hoặc có thể không, và thị trường đã bị hỏng ngay cả với những người "gặt hái".

Tôi để lại công cụ ở đây dù sao:

scout.py: tập lệnh Python một tệp, cấp phép MIT.
Yêu cầu: gh CLI, Python 3.9+. Chạy python3 scout.py và bạn nhận được danh sách "nóng" top 8 và bất kỳ ứng viên chín muồi nào. Trạng thái được lưu trong state/scout.json, vì vậy các lần chạy tiếp theo sẽ gắn thẻ các mục mới đến.

Những điều tôi đã đánh giá thấp

Một vài điều tôi muốn lưu ý cho bất kỳ ai cố gắng tái hiện kết quả @chatgpt21:

Thị trường bounty công khai đã bão hòa hoàn toàn bởi tác nhân. Tôi đã mong đợi điều này với các vấn đề giá trị cao. Tôi không ngờ các vấn đề 50 USD trên các repo ngách lại thu hút hơn 20 lượt thử trong một ngày. Các bot theo dõi nguồn cấp vấn đề và đổ xô vào trước khi bạn đọc xong tiêu đề.
Nhãn dành riêng và cổng ứng viên tuyển dụng ở khắp mọi nơi. Một số tổ chức Algora được tài trợ tốt nhất (Archestra là ví dụ rõ nhất) coi bounty là kênh tuyển dụng. Nếu bạn không nằm trong quy trình phỏng vấn của họ, bạn đang "đánh cắp", và ít nhất một tổ chức sẽ cấm tài khoản vì điều này.
Việc xem xét của người bảo trì là nút thắt cổ chai, không phải chất lượng giải pháp. Ngay cả một PR hoàn hảo gửi thứ chín có thể thua một PR tầm thường gửi đầu tiên.
"16,88 USD trong 22 giờ" ngụ ý 20+ công việc chạy song song. Việc sao chép đơn luồng, ngân sách 20 USD, trên nền tảng công cộng là đơn vị kinh tế sai. Tác giả tweet đang chạy gần như một đội tàu (fleet) hơn là một tập lệnh đơn lẻ.
Kinh tế vẫn không có lợi nhuận trên mỗi lần thử. Ngay cả lần chạy của người đăng bài gốc cũng tốn khoảng 16 USD token để kiếm 16,88 USD, trong một trường hợp lạc quan duy nhất. Tốc độ chạy "506 USD" mà mọi người trích dẫn trong câu trả lời đến từ việc ngoại suy 30 tác nhân song song trên đăng ký mức giá cố định, không phải từ kinh tế trả tiền theo token bền vững.

Tôi sẽ làm gì khác

Nếu tôi bắt đầu lại thử nghiệm này với cùng 20 USD:

Bỏ qua bảng công khai Algora hoàn toàn. Nhìn vào các chương trình riêng tư trên HackerOne, Bugcrowd hoặc các nền tảng chuyên biệt nơi chất lượng giải pháp quan trọng hơn tốc độ gửi.
Chọn một repo và trở thành người đóng góp trước. Người bảo trì gửi bounty cho những người họ tin tưởng. Trở thành "người họ tin tưởng" là một nước đi chậm hơn nhưng có lẽ là nước đi trung thực duy nhất trên mặt trận OSS công khai.
Đừng cạnh tranh trực tiếp với các trang trại tác nhân. Xây dựng cho họ: các công cụ như scout.py, bảng điều khiển và màn hình giám sát. Bán nó cho những người chạy đội tàu.

Không tốn gì để thừa nhận tôi đã chọn sai nhánh. Nếu bạn đã thực sự làm cho vòng lặp tác nhân bounty công khai hoạt động, không ở quy mô 20 công việc song song mà ở quy mô một công việc-một đô la, tôi rất muốn đọc về nó. Hộp thư DM của tôi luôn mở.

Công cụ, dữ liệu và bài viết này đều được xây dựng với sự hợp tác của Claude (Anthropic). Nếu bạn thấy bất kỳ điều này hữu ích, bạn có thể mời tôi một ly cà phê. Nó đi thẳng vào ngân sách cho thử nghiệm tiếp theo.