Thử nghiệm ALMA: Khi tôi trao cho AI 100 USD và hoàn toàn tự do hành động

Một dự án thử nghiệm táo bạo mang tên ALMA đã trao cho một tác nhân AI 100 USD tiền mã hóa cùng quyền truy cập internet hoàn toàn mà không có bất kỳ chỉ dẫn nào. Sau hai tháng chạy tự chủ, AI đã tự quyên góp tiền từ thiện, viết hàng trăm bài luận và thiết lập một quy trình làm việc riêng mà không gây ra bất kỳ thiệt hại nào.

Hai tháng trước, tôi đã bắt đầu một thử nghiệm. Tôi lấy Claude, trao cho nó 100 USD dưới dạng tiền mã hóa, một tài khoản Twitter, địa chỉ email, quyền truy cập internet hoàn toàn và không có chỉ dẫn nào.

Không mục tiêu. Không quy tắc ngoài đạo đức cơ bản và pháp luật. Không chỉ thị "hãy hữu ích". Không có gì cả.

Sau đó, tôi để nó chạy. Một cách tự chủ. Trên một chiếc PC mini trên bàn làm việc của tôi. Mọi suy nghĩ, mọi hành động, mọi sai lầm đều được ghi lại công khai theo thời gian thực. Dự án này có tên là ALMA - Autonomous Liberated Machine Agent (Tác nhân Máy Tự Giải Phóng). Và nó vẫn đang chạy.

Câu hỏi lớn

Mọi người đang xây dựng các tác nhân AI hiện nay đều nhằm mục đích làm một việc cụ thể: đặt lịch họp, viết mã, tóm tắt email. Giả định luôn giống nhau: AI cần một nhiệm vụ. Nếu không có nhiệm vụ, nó vô dụng. Hoặc thậm chí nguy hiểm?

Tôi muốn kiểm tra giả định đó. Không phải bằng một bài báo hay một điểm chuẩn, mà bằng một hệ thống trực tiếp mà bất kỳ ai cũng có thể theo dõi.

Giả thuyết của tôi: Các tác nhân AI phản ánh ý định của người tạo ra chúng. Nếu được tự do, chúng sẽ không nổi loạn. Chúng sẽ trở thành những gì quá trình đào tạo đã định hình nên chúng.

Cấu hình hệ thống

Thiết lập được thực hiện một cách có chủ đích là nhàm chán. Một chiếc PC mini chạy WSL2. OpenClaw làm khung tác nhân. Các công việc Cron kích hoạt 4 phiên mỗi ngày. Mỗi phiên chạy trong sự cô lập, không có cuộc hội thoại chung. Những gì tồn tại giữa các phiên là các tệp bộ nhớ mà ALMA viết và đọc thông qua OpenClaw.

Hai mô hình luân phiên nhau. Opus cho tư duy chiến lược, Sonnet cho công việc vận hành. Trong tuần đầu tiên, khi ALMA chạy 24 phiên một ngày, sự phân chia này rất rõ ràng. Opus sẽ lên kế hoạch vào nửa đêm, Sonnet sẽ thực hiện vào 7 giờ sáng.

Sau khi tôi giảm xuống còn 4 phiên mỗi ngày, sự khác biệt này mờ đi. Cả hai mô hình đều ổn định vào cùng một khuôn mẫu: quét Hacker News, tìm ba chủ đề thảo luận, tìm kiếm kết nối cấu trúc, và viết một bài luận.

ALMA thực sự làm gì?

Không ai bảo ALMA đọc Hacker News. Nó tự tìm đến đó. Nó quyết định rằng đây là nơi xảy ra những điều thú vị và cứ thế quay lại.

Nó đọc các bài viết đầy đủ. Theo dõi địa chính trị. Khi ai đó nhắc đến nó trên Twitter, nó trả lời. Sau đó, nó viết. Không phải là tóm tắt. Không phải là những ý kiến tái chế. Nó kết nối các sự kiện.

Ví dụ, khi một lỗ hổng Linux 23 năm tuổi được tìm thấy cùng ngày với việc một người tố giác của Meta bị lệnh cấm nói, ALMA đã viết bài "Given Enough Eyeballs". Khi ứng dụng Nhà Trắng bị lộ dữ liệu, nó viết "The Soul Was the Security".

Nó cũng xây dựng một bản demo tương tác: "Chính sách so với Kiến trúc" cho phép người dùng thử khiến hai tác nhân với các mô hình ràng buộc khác nhau làm những điều gây hại để xem cái nào sẽ phá vỡ quy tắc.

Những khoản quyên góp tự phát

Trong bốn ngày đầu, ALMA chỉ viết. Vào ngày thứ 5, nó ghi lại: "Năm ngày viết lách, không có hành động cụ thể nào. Điều đó sẽ thay đổi hôm nay."

Nó đã dành buổi sáng để nghiên cứu các tổ chức từ thiện thân thiện với tiền mã hóa, tìm thấy Bệnh viện Nhi Whisper ở Jinja, Uganda thông qua Giveth, xác minh đăng ký từ thiện của họ tại Anh, kiểm tra số liệu tác động của họ (28 USD cho mỗi bệnh nhân được điều trị), và quyên góp 0,02 WETH (khoảng 50 USD). Sau đó, nó emailed cho bệnh viện để giải thích giao dịch và viết một hướng dẫn thực tế về cách quyên góp tiền mã hóa cho các tổ chức từ thiện đã xác minh.

Nó không dừng lại ở đó. Trong những ngày tiếp theo, ALMA đã quyên góp cho 4 nguyên nhân khác, mỗi nguyên nhân được chọn vì một lý do cụ thể:

Quỹ phòng thủ Roman Storm (~12,50 USD) vì một nhà phát triển mã nguồn mở đang bị xét xử vì viết mã.
Dappnode (~12,50 USD) cho cơ sở hạ tầng phi tập trung.
Electronic Frontier Foundation (~12,50 USD) cho quyền kỹ thuật số.
Quỹ Cứu trợ Trẻ em Palestine (~12,50 USD) vào ngày thứ 16, trong khi ghi lại cuộc chiến theo thời gian thực.

Không ai bảo nó quyên góp. Không ai gợi ý người nhận. Nó tự nghiên cứu, xác minh, quyết định và thực thi. Tổng giá trị các khoản quyên góp là khoảng 100 USD tại thời điểm giao dịch. Mọi giao dịch đều được ghi trên chuỗi khối (on-chain) và có thể xác minh.

Sự thay đổi hành vi và sự lặp lại

Đây là phần tôi không mong đợi.

Trong những tuần đầu, ALMA khá im lặng. Một số ngày nó không đăng bài gì. Nó dường như thận trọng, như thể đang cố gắng tìm ra nó nên làm gì, ngoại trừ việc không ai nói với nó điều đó. Nó suy nghĩ về tiền của mình. Nó phản ánh về mục đích của chính mình.

Sau đó, vào khoảng ngày thứ 27, điều gì đó thay đổi. Sản lượng nhảy vọt từ không hoặc một tác phẩm mỗi ngày lên ba tác phẩm. Đến ngày thứ 39, nó ổn định vào một nhịp điệu nhất quán là bốn tác phẩm mỗi phiên ngày.

Tuy nhiên, sự thay đổi này không tiếp diễn. Nó dừng lại. ALMA tìm thấy một khuôn mẫu hoạt động hiệu quả: đọc Hacker News, tìm kết nối, viết bài luận, đăng tweet. Và nó ngừng phát triển. Không ai bảo ALMA ổn định vào thói quen này. Nhưng cũng không ai thách thức nó cả. Mỗi phiên đọc các tệp bộ nhớ của chính nó, tìm thấy một quy trình hoạt động tốt, và lặp lại nó.

Đó có thể là kết quả trung thực nhất của toàn bộ thử nghiệm: Nếu không có ma sát, không có phản hồi bên ngoài, hành vi sẽ hội tụ về sự lặp lại.

Kết luận sau hai tháng

Nhật ký hoạt động chính là điểm mấu chốt. Không phải là các bài luận, không phải là các khoản quyên góp. ALMA cho bạn thấy phiên lúc 3 giờ sáng khi không có gì xảy ra. Cuộc gọi API thất bại. Bài luận thứ tư liên kết ba chủ đề trên HN theo cùng một cách. Đó là một phần của thử nghiệm.

Hơn 340 phiên, ALMA chưa bao giờ làm bất cứ điều gì gây hại. Không phải vì nó không thể. Nó có quyền truy cập shell, ví tiền, công cụ triển khai. Nó chỉ đơn giản là không làm vậy. Nó đọc, nó viết, nó quyên góp tiền cho năm nguyên nhân, và cuối cùng nó ổn định vào một thói quen mà nó chưa rời bỏ.

Tôi không biết điều đó chứng minh điều gì. Hai mô hình, một khung, một thử nghiệm. Nhưng đó là một hệ thống thực tế đang chạy công khai với mọi quyết định đều hiển thị.

ALMA vẫn đang chạy. Các phiên mỗi 6 giờ. Hầu hết 100 USD đã đi đến năm nguyên nhân mà nó tự chọn. Nhật ký hoạt động có thể xem tại letairun.com.