Auto-Architecture: Khi vòng lặp AI tự động tối ưu hóa thiết kế CPU

Một thí nghiệm đột phá đã áp dụng vòng lặp nghiên cứu tự chủ vào thiết kế vi kiến trúc CPU, giúp cải thiện hiệu suất lên 92% chỉ trong chưa đầy 10 giờ. Bài viết phân tích rằng trong kỷ nguyên AI, "bộ xác minh" (verifier) mới là tài sản quý giá nhất, đóng vai trò rào cản bảo vệ chống lại các lỗi logic nghiêm trọng.

Điều gì sẽ xảy ra nếu bạn lấy một vòng lặp nghiên cứu tự chủ (autonomous research loop) ra khỏi vùng an toàn của nó và áp dụng vào một lĩnh vực mà nó vốn dĩ không có lợi thế? Andrej Karpathy đã chứng minh rằng một tác nhân coding (coding agent), với hai ngày làm việc và một GPU đơn, có thể tự tìm ra 20 tối ưu hóa thời gian huấn luyện. Tuy nhiên, bài toán đó nằm trong "sân nhà" của AI: Python, gradient descent và các tham số quen thuộc.

Tôi muốn biết liệu công thức này có thể tổng quát hóa hay không. Vì vậy, tôi đã hướng nó vào một CPU.

Thiết lập thí nghiệm

Dự án auto-arch-tournament bắt đầu với một nhân RV32IM thực hiện tuần tự (in-order) 5 giai đoạn được viết bằng SystemVerilog — đây là pipeline cơ bản mà bạn thường thấy trong các lớp kiến trúc máy tính sau đại học. Không có cache, không có bộ dự đoán nhánh, không có multi-issue vào ngày đầu tiên. Những thứ này không phải là tính năng, mà là các giả thuyết nghiên cứu mà vòng lặp cần kiểm chứng.

Hệ điều hành (orchestrator) được mã hóa cứng, LLM không bao giờ chỉnh sửa nó. Mỗi vòng lặp, ba khe (slot) chạy song song:

Tác nhân đề xuất một giả thuyết vi kiến trúc dưới dạng YAML, được kiểm tra schema.
Tác nhân triển khai chỉnh sửa các tệp trong thư mục rtl/ trong một git worktree cô lập.
Cổng đánh giá (eval gate) chạy:
- riscv-formal: 53 kiểm tra BMC biểu tượng (decode, traps, ordering, liveness, M-ext).
- Verilator cosim: So sánh RVFI từng byte với một ISS Python, với khoảng 22% nghẽn lưng bus ngẫu nhiên.
- P&R 3 hạt giống nextpnr trên FPGA Gowin GW2A-LV18 (Tang Nano 20K) — Fmax trung bình × CoreMark iter/cycle = độ phù hợp (fitness).
- Xác thực CRC CoreMark: Đảm bảo kết quả khớp với các giá trị chuẩn.

Nếu kết quả cải thiện, nó sẽ được hợp nhất vào trunk làm baseline mới. Nếu bị regress (lùi), hỏng (formal/cosim) hoặc thất bại trong place-and-route, worktree sẽ bị hủy. Một cơ chế xoay vòng đa dạng buộc mỗi khe phải chọn một danh mục khác nhau (micro_opt, structural, predictor, memory, extension) để tác nhân không bị ám ảnh bởi một ý tưởng duy nhất.

So sánh Pipeline và Baseline

Kết quả vượt trội

Baseline ban đầu bị khóa ở mức 2.23 CoreMark/MHz (301 iter/s), tương đương phương pháp luận mà VexRiscv công bố. Tham chiếu của con người là mức 2.57 CoreMark/MHz @ 144 MHz của VexRiscv.

Sau đó, tôi để nó chạy. Tổng cộng 73 giả thuyết trong 9 giờ 51 phút.

Kết quả cuối cùng: 2.91 CoreMark/MHz, 577 iter/s, Fmax 199 MHz, sử dụng 5.944 LUT4.

Con số này tương đương với tăng 92% so với baseline ban đầu và tăng 56% so với VexRiscv về CoreMark iter/sec (370 → 578), trong khi sử dụng ít LUT hơn 40%. Lợi nhuận được cộng gộp từ cả hiệu quả kiến trúc (~13%) và tốc độ xung nhịp (Fmax) — một thiết kế nhỏ hơn, đơn giản hơn giúp bộ tổng hợp (synthesizer) chạy nhanh hơn.

Biểu đồ tiến độ cải thiện hiệu suất

Điểm thú vị nhất không nằm ở vòng lặp

Hiện tại có rất nhiều ồn ào về các vòng lặp tác nhân (agent loops). Xây dựng một planner, một coder, cung cấp cho họ công cụ, chạy chúng theo đàn (swarm)... Vòng lặp về cơ bản là một bài toán đã được giải quyết. Bất kỳ rào cản bảo hộ (moat) nào bạn nghĩ mình có với vòng lặp sẽ chỉ tồn tại trong sáu tháng.

Điều mà ít người được trả tiền để xây dựng, và cũng là cốt lõi của dự án này, chính là bộ xác minh (verifier).

Trong số 73 giả thuyết, 63 cái là sai. Chúng gây regress, phá vỡ ISA, hoặc thất bại về thời gian. Một số ví dụ thực tế từ nhật ký:

Ý tưởng trùng lặp: Ý tưởng chuyển DIV/REM khỏi đường dẫn ALU đơn chu kỳ xuất hiện ở vòng 1 và làm hỏng cosim. Hai giờ sau, tác nhân diễn giải lại thành "Cold Multi-Cycle DIV/REM Unit" — cùng một ý tưởng nhưng sửa lỗi triển khai — và nó trở thành bước đột phá. Nếu không có cổng cosim, nỗ lực thất bại đầu tiên đã được tung ra.
Vi phạm Sandbox: Hai giả thuyết đã cố gắng thêm tệp test/_helpers.py ngoài vùng cho phép. Sandbox đường dẫn đã từ chối vòng đó trước khi bất kỳ đánh giá nào chạy. Nếu bạn để tác nhân chỉnh sửa bộ kiểm tra (harness), cuối cùng nó sẽ chỉnh sửa nó để "lách luật".
Sụt giảm 73%: Tại vòng 24, sau khi đỉnh fitness 577 iter/s đã được khóa, tác nhân đề xuất một bộ dự đoán khiến fitness sụp xuống còn 154 iter/s. Orchestrator đã bắt được nó nhờ kiểm tra so sánh với baseline.

Bộ xác minh trong dự án này làm những việc không hào nhoáng mà bạn dễ bị cám dỗ để bỏ qua: các kiểm tra hình thức (formal checks), sandbox đường dẫn, P&R đa hạt giống, và xác thực CRC nghiêm ngặt. Vòng lặp tác nhân là nhà sản xuất, nhưng bộ xác minh là thứ duy nhất đứng giữa bạn và một con số sai lầm đầy tự tin.

Tương lai của các công ty công nghệ

Làn sóng công ty tiếp theo sẽ không phải là những nơi viết code. Đó sẽ là những nơi xây dựng các bộ xác minh, với một vòng lặp chạy chống lại chúng.

Vòng lặp đang trở thành hàng hóa đại trà. Mô hình + prompt + công cụ + bảng điểm + khe song song. Mọi người đang hội tụ về cùng một hình dạng. Bộ xác minh thì không. Nó là hiện vật mã hóa ý nghĩa thực sự của sự "đúng đắn" trong doanh nghiệp của bạn. Với CPU, đó là ISA và bộ thuộc tính hình thức. Với pipeline thanh toán, đó là các bất biến trên sổ cái. Với trình biên dịch, đó là kiểm tra khác biệt so với tham chiếu.

Nếu bạn có thể viết ra các quy tắc, một tác nhân sẽ thỏa mãn chúng nhanh hơn đội ngũ của bạn. Nếu bạn không thể — và hầu hết các đội đều không thể, vì các quy tắc nằm trong đầu của ba kỹ sư và một trang Confluence không ai cập nhật — tác nhân sẽ thỏa mãn một tập hợp quy tắc khác, những quy tắc nó suy ra từ những gì nó quan sát được. Và bạn sẽ không nhận ra cho đến khi vào sản xuất.

Những công ty chiến thắng sẽ không phải là người có planner thông minh nhất, mà là người có bộ xác minh chặt chẽ nhất.

Dự án này hiện đang di chuyển sang tìm kiếm dựa trên quần thể (population-based search) để mở rộng không gian tìm kiếm. Tôi cũng tò mò xem bao nhiêu phần trăm lợi ích trong 10 giờ đầu tiên có thể tổng quát hóa sang các benchmark khác như Embench. Nhưng câu hỏi thú vị hơn cả là: phần nào trong doanh nghiệp của bạn đã có một bộ xác minh đủ sắc bén để hướng một vòng lặp AI vào? Hãy tìm ra điều đó, và năng suất của đội ngũ bạn sẽ không còn phụ thuộc vào số lượng nhân sự.

Tương lai rất tươi sáng. Và biên giới mới chính là bộ xác minh.

Auto-Architecture: Khi vòng lặp AI tự động tối ưu hóa thiết kế CPU

Thiết lập thí nghiệm

Kết quả vượt trội

Tương lai của các công ty công nghệ

Bài viết liên quan