Tại sao một số AI "mê quy trình" trong khi số khác chỉ tập trung giao code?

Một thí nghiệm thú vị cho thấy sự chênh lệch đánh giá giữa các công cụ AI đối với cùng một mã nguồn. Thực tế, sự khác biệt này không nằm ở độ chính xác, mà là sự đối lập giữa triết lý kiểm toán và triết lý giao kết quả.

Tôi đã thực hiện một thí nghiệm đơn giản.

Cùng một mã nguồn. Một AI đánh giá nó đạt 9/10, hoàn toàn sẵn sàng để triển khai (production-ready). Một AI khác chỉ chấm 5/10.

Thoạt nhìn, có vẻ như một trong hai đang sai. Tuy nhiên, sự khác biệt ở đây không phải là độ chính xác — mà là triết lý.

Hai loại hành vi của AI

1. Dựa trên quy trình (Tư duy kiểm toán)

Tập trung vào: các trường hợp ngoại lệ (edge cases), chế độ lỗi, khả năng mở rộng (scalability).
Chấm điểm thận trọng và khắt khe.
Giả định rằng: production (môi trường thực tế) nghĩa là phải chịu được áp lực nghiêm ngặt của thế giới thực.

2. Dựa trên kết quả (Tư duy giao hàng)

Tập trung vào: giải pháp hoạt động được, tính hoàn chỉnh.
Chấm điểm thoải mái và hào phóng hơn.
Giả định rằng: production nghĩa là có thể triển khai được ngay.

Điều thực sự đang diễn ra

Cả hai đều đúng — nhưng dưới những giả định khác nhau.

Một bên hỏi: "Mã nguồn này có bị gãy trong môi trường thực tế không?"
Bên kia hỏi: "Mã nguồn này có giải quyết được vấn đề không?"

Bạn không đang so sánh chất lượng. Bạn đang so sánh các lăng kính đánh giá.

Các chế độ thất bại tiềm ẩn

Hệ thống dựa trên quy trình

Phân tích quá mức (over-analysis).
Triển khai chậm chạp.
Có thể làm tắc nghẽn tiến độ phát triển.

Hệ thống dựa trên kết quả

Che giấu nợ kỹ thuật (technical debt).
Tự tin thái quá.
Gây ra các bất ngờ khi đã đưa vào vận hành.

Lập trình viên nên làm gì?

Đừng chọn phe. Hãy kết hợp cả hai.

Quy trình làm việc thực tế:

Xây dựng nhanh (theo tư duy dựa trên kết quả).
Kiểm toán gắt gao (theo tư duy dựa trên quy trình).
Chỉ sửa các vấn đề có rủi ro cao.

Định nghĩa lại "Sẵn sàng triển khai"

"Sẵn sàng triển khai" không có nghĩa là "nó chạy được".

Nó có nghĩa là:

Xử lý được các lỗi (failures).
Có hệ thống ghi log và khả năng quan sát (observability).
Đảm bảo an toàn (security).
Dễ dàng bảo trì bởi người khác.

Lời kết

Nếu một AI chấm 9/10 và một cái chấm 5/10, đừng hỏi:

"Cái nào đúng?"

Hãy hỏi:

Mỗi bên đang đưa ra những giả định gì?