Để AI tự động chạy thử nghiệm: Tối ưu hóa chiến dịch marketing với Autoresearch

Bài viết khám phá khái niệm "autoresearch", nơi các mô hình ngôn ngữ lớn (LLM) hoạt động trong một vòng lặp để tự động chạy thử nghiệm, đo lường và cải tiến mã nguồn. Tác giả đã áp dụng phương pháp này vào bài toán tối ưu hóa ngân sách marketing và đạt được kết quả ấn tượng tương đương với giải pháp toán học chính xác.

Bạn đã bao giờ rơi vào tình huống có quá nhiều ý tưởng để cải thiện sản phẩm nhưng lại không có đủ thời gian để kiểm tra tất cả chúng? Tôi tin là chúng ta đều đã từng trải qua điều này.

Nhưng nếu tôi nói với bạn rằng bạn không cần phải làm tất cả mọi thứ một mình nữa, mà có thể ủy thác công việc đó cho AI thì sao? AI có thể chạy hàng chục, thậm chí hàng trăm thí nghiệm thay bạn, loại bỏ những ý tưởng không hiệu quả và tinh chỉnh những ý tưởng thực sự tạo ra sự khác biệt.

Nghe thật tuyệt vời. Và đó chính là ý tưởng cốt lõi đằng sau autoresearch (tự động nghiên cứu), nơi một Mô hình Ngôn ngữ Lớn (LLM) hoạt động trong một vòng lặp liên tục: thử nghiệm, đo lường tác động và cải tiến dựa trên kết quả đó.

Hình ảnh minh họa về khái niệm autoresearch

Autoresearch là gì?

Autoresearch ban đầu được phát triển bởi Andrej Karpathy. Ý tưởng là cho phép một LLM hoạt động độc lập trong một môi trường nơi nó có thể liên tục chạy các thí nghiệm. Nó sẽ thay đổi mã nguồn, huấn luyện mô hình, đánh giá xem hiệu suất có được cải thiện hay không, sau đó giữ lại hoặc loại bỏ từng thay đổi trước khi lặp lại quy trình. Cuối cùng, bạn sẽ nhận được một mô hình tốt hơn so với ban đầu.

Ban đầu, phương pháp này tập trung vào việc tối ưu hóa các mô hình Machine Learning. Tuy nhiên, cách tiếp cận tương tự có thể được áp dụng cho bất kỳ nhiệm vụ nào có mục tiêu rõ ràng (từ giảm thời gian tải trang web đến giảm thiểu lỗi khi thu thập dữ liệu). Sau này, Shopify đã mã nguồn mở một phần mở rộng của autoresearch gốc gọi là pi-autoresearch, xây dựng dựa trên pi - một bộ khung mã hóa terminal mã nguồn mở tối giản.

Quy trình của pi-autoresearch bao gồm các bước chính sau:

Định nghĩa chỉ số: Xác định chỉ số bạn muốn cải thiện cùng với các ràng buộc đi kèm.
Đo lường đường cơ sở (Baseline): Thiết lập kết quả khởi đầu.
Kiểm tra giả thuyết: Trong mỗi lần lặp, tác nhân AI đề xuất một ý tưởng, viết mã và kiểm tra nó. Có ba kết quả có thể xảy ra: không hoạt động (bỏ qua), làm xấu đi chỉ số (bỏ qua), hoặc cải thiện mục tiêu (giữ lại và tiếp tục lặp lại từ đó).
Lặp lại: Vòng lặp tiếp tục cho đến khi bạn dừng nó, sự cải tiến đi vào ngõ cụt hoặc đạt đến giới hạn lặp đặt trước.

Thử nghiệm với bài toán tối ưu hóa ngân sách Marketing

Để kiểm tra khả năng của autoresearch, tôi đã chọn một nhiệm vụ phân tích thực tế: tối ưu hóa ngân sách marketing với nhiều ràng buộc. Mục tiêu là xem một vòng lặp tự trị có thể đạt được kết quả tương tự như chúng ta làm thủ công hay không.

Bài toán khá phổ biến. Hãy tưởng tượng bạn là một nhà phân tích marketing và cần lập kế hoạch cho các hoạt động trong tháng tới. Mục tiêu là tối đa hóa doanh thu trong phạm vi ngân sách marketing hạn chế (30 triệu USD).

Chúng ta có một tập hợp các chiến dịch marketing tiềm năng với các dự báo cho từng chiến dịch, bao gồm: quốc gia, kênh marketing, chi phí dự kiến và doanh thu kỳ vọng. Ngoài ra, chúng ta còn có thêm thông tin về số lượng người dùng mới được và số lượng liên hệ với bộ phận hỗ trợ khách hàng.

Dữ liệu mẫu cho các chiến dịch marketing

Để cung cấp cho tác nhân AI một điểm khởi đầu, tôi đã triển khai một giải pháp đơn giản: tập trung vào các phân khúc hoạt động tốt nhất dựa trên doanh thu trên mỗi đô la chi tiêu. Cách tiếp cận "tham lam" (greedy) này sắp xếp tất cả các chiến dịch theo chỉ số này và chọn những chiến dịch phù hợp với ngân sách.

Kết quả đường cơ sở cho thấy doanh thu đạt 107,9 triệu USD với tổng chi tiêu là 29,2 triệu USD.

Thiết lập và chạy thí nghiệm

Sau khi cài đặt pi và phần mở rộng pi-autoresearch, tôi đã cấu hình giới hạn số lần lặp là 30 để kiểm soát chi phí token. Sau đó, tôi khởi động quy trình bằng lệnh /skill:autoresearch-create.

Tác nhân đã tự động suy luận mục tiêu tối ưu hóa bằng cách kiểm tra mã nguồn trong optimise.py và tạo ra một tệp autoresearch.md tóm tắt nhiệm vụ. Nó xác định rõ ràng các chỉ số và ràng buộc, đồng thời chỉ ra rằng việc thay đổi dữ liệu đầu vào là không được phép.

Ngay sau khi định nghĩa xong nhiệm vụ, vòng lặp bắt đầu chạy. Tôi có thể thấy cả lý luận của nó và một số thống kê chính trong giao diện, chẳng hạn như lần lặp hiện tại, giá trị mục tiêu tốt nhất và mức cải thiện so với đường cơ sở.

Giao diện hiển thị trạng thái và các lần lặp

Kết quả các lần lặp

Trong trường hợp của tôi, mặc dù cấu hình giới hạn 30 lần lặp, tác nhân quyết định dừng lại sau chỉ 5 lần. Nó đã khám phá nhiều chiến lược khác nhau:

Lần lặp 1: Tái tạo lại cách tiếp cận đường cơ sở của chúng ta. Không có đột phá, chỉ là kiểm tra tính hợp lý.
Lần lặp 2: Trình giải bài toán cái ba lô chính xác (0/1 knapsack). Tác nhân chuyển sang phương pháp nhánh và cận (branch-and-bound) và đạt được doanh thu 110,16 triệu USD (tăng 2,25 triệu USD). Đây là một sự cải thiện rõ ràng ngay trong lần lặp thứ hai.
Lần lặp 3: Cắt giảm không gian tìm kiếm bằng cách loại bỏ các phân khúc bị chi phối. Cách tiếp cận này thất bại và làm giảm doanh thu xuống 95,9 triệu USD, nên nó đã bị loại bỏ.
Lần lặp 4 & 5: Tác nhân chuyển sang phương pháp Quy hoạch động (Dynamic programming) và chuyển đổi các giá trị tiền tệ sang số nguyên để tăng độ ổn định. Kết quả cuối cùng vẫn giữ nguyên ở mức tốt nhất của lần lặp 2.

Kết quả tối ưu đã được tìm thấy trong lần lặp thứ hai và khớp với giải pháp chúng tôi tìm thấy trước đây bằng cách sử dụng lập trình tuyến tính. Tác nhân đã biết khi nào nên dừng lại thay vì chạy hết tất cả 30 lần lặp.

Thêm ràng buộc phức tạp hơn

Để làm cho bài toán thực tế hơn, tôi đã thêm các ràng buộc từ bộ phận Vận hành: đảm bảo không quá 5.000 vé hỗ trợ khách hàng bổ sung và tỷ lệ liên hệ khách hàng tổng thể dưới 4,2%.

Tôi chỉ cần khởi động lại quy trình và cung cấp các ràng buộc bổ sung. Tác nhân đã nắm bắt ngay bối cảnh từ lần chạy trước, điều chỉnh tệp autoresearch.md và bắt đầu lại quá trình tìm kiếm.

Lần này, nó chạy thêm 8 lần lặp và hội tụ về giải pháp sau:

Doanh thu: 109,87 triệu USD.
Ngân sách chi tiêu: 29,9981 triệu USD (dưới 30 triệu).
Liên hệ CSKH: 3.218 (dưới 5.000).
Tỷ lệ liên hệ: 0,038 (dưới 0,042).

Sau khi thêm các ràng buộc mới, tác nhân đã tái định nghĩa bài toán và chuyển sang trình giải MILP (Lập trình nguyên hỗn hợp) chính xác. Nó nhanh chóng tìm ra giải pháp tối ưu thỏa mãn tất cả các ràng buộc.

Tổng kết

Đây thực sự là một thí nghiệm thú vị. Tác nhân AI đã có thể đạt được giải pháp tối ưu giống hệt những gì chúng ta tìm thấy trước đây, hoàn toàn tự chủ. Mặc dù nó không đẩy kết quả xa hơn (điều không ngạc nhiên đối với các bài toán được nghiên cứu kỹ như bài toán cái ba lô), nhưng việc thấy một LLM có thể khám phá các giải pháp một cách lặp lại và hội tụ về một kết quả vững chắc mà không cần hướng dẫn thủ công là rất ấn tượng.

Tôi tin rằng cách tiếp cận này có tiềm năng mạnh mẽ trong nhiều lĩnh vực, từ huấn luyện mô hình ML, giải quyết các nhiệm vụ phân tích đến các vấn đề kỹ thuật như tối ưu hóa hiệu suất hệ thống. Trong nhiều đội nhóm, chúng ta đơn giản là không có thời gian để kiểm tra mọi ý tưởng có thể. Một vòng lặp tự trị như thế này có thể thử nghiệm một cách có hệ thống các cách tiếp cận khác nhau và xác thực chúng bằng các chỉ số thực tế.

Tuy nhiên, đây chắc chắn không phải là một giải pháp thần kỳ. Sự giám sát của con người vẫn rất quan trọng để đảm bảo giải pháp tìm ra khả thi về mặt thực tế và hợp lý về mặt tổng thể. Nếu bạn có một mục tiêu rõ ràng, các ràng buộc được xác định tốt và một thứ gì đó có thể đo lường để tối ưu hóa, tôi khuyên bạn nên thử các công cụ như pi-autoresearch. Có một điều gì đó gần như ma thuật khi sản phẩm của bạn được cải thiện trong khi bạn đang ngủ.

Để AI tự động chạy thử nghiệm: Tối ưu hóa chiến dịch marketing với Autoresearch

Autoresearch là gì?

Thử nghiệm với bài toán tối ưu hóa ngân sách Marketing

Thiết lập và chạy thí nghiệm

Kết quả các lần lặp

Thêm ràng buộc phức tạp hơn

Tổng kết

Bài viết liên quan