Cách để Claude Code Tự kiểm tra và Xác thực Công việc của Chính mình

Claude Code là một công cụ lập trình AI mạnh mẽ, nhưng hiệu suất của nó sẽ tăng vọt nếu được phép tự kiểm tra và xác thực kết quả. Bài viết này sẽ hướng dẫn bạn cách thiết lập quy trình này thông qua các ví dụ thực tế như tối ưu hóa độ trễ và triển khai thiết kế giao diện.

Claude Code là một mô hình cực kỳ mạnh mẽ ngay khi mới sử dụng. Tuy nhiên, để khai thác tối đa khả năng của nó, bạn cần cung cấp cho nó quyền truy cập để tự kiểm tra và xác minh công việc mà mình đã thực hiện.

Trong một bài viết trước, tôi đã đề cập đến việc Claude tự xác thực công việc là một phần quan trọng trong việc tối ưu hóa cách sử dụng Claude Code của riêng tôi. Trong bài viết này, tôi sẽ đi sâu hơn vào cách tôi khiến Claude thực hiện việc kiểm tra này.

Những lợi ích mang lại là vô cùng to lớn. Khi bạn yêu cầu Claude tự kiểm tra công việc của mình, bạn sẽ có:

Một mô hình tốt hơn trong việc triển khai "một phát ăn ngay" (tốn ít thời gian lặp lại hơn).
Một mô hình có thể chạy trong thời gian dài hơn (mô hình sẽ tiếp tục cho đến khi có thể tự xác nhận công việc thành công).
Khả năng hoàn thành các công việc phức tạp hơn.

Minh họa Claude Code

Tại sao nên để Claude tự xác minh công việc?

Lý do hàng đầu khiến bạn nên để Claude tự kiểm tra công việc là vì nó đơn giản giúp Claude hoạt động tốt hơn. Hãy tưởng tượng kịch bản sau:

Bạn được yêu cầu viết một đoạn mã để tính toán dãy Fibonacci. Rõ ràng, đây là một nhiệm vụ tương đối đơn giản. Tuy nhiên, hãy tưởng tượng bạn phải hoàn thành nhiệm vụ này một cách hoàn hảo mà không bao giờ có cơ hội chạy mã và xem kết quả đầu ra. Tức là bạn phải tạo ra mã hoàn hảo ngay từ lần thử đầu tiên. Tất nhiên, điều này khó khăn hơn nhiều so với việc bạn được tự kiểm tra mã, tinh chỉnh nó nếu thấy sai và tiếp tục cho đến khi mã đưa ra kết quả đúng.

Khái niệm này cũng áp dụng chính xác cho Claude Code. Nếu bạn không cho nó cơ hội tự xác minh, nó giống như việc yêu cầu nó viết mã cho dãy Fibonacci mà không bao giờ cho phép nó nhìn thấy kết quả đầu ra. Rõ ràng, bạn đang đặt Claude Code vào thế bất lợi, nơi nó sẽ tạo ra kết quả kém chất lượng hơn so với việc nó được phép tự kiểm tra mã.

Cách thực hiện trong thực tế

Cụm từ "khiến Claude tự xác minh công việc" thường được nhắc đến nhiều, nhưng ít người giải thích chính xác cách họ làm điều đó. Dưới đây là các ví dụ thực tế về cách tôi khiến Claude tự xác minh công việc của mình, bao gồm quy trình từ khi nghe nói về vấn đề đến khi triển khai giải pháp.

Thời gian xử lý LLM kéo dài

Ví dụ cụ thể đầu tiên là trường hợp tôi phân tích dữ liệu người dùng từ tương tác với một tác nhân AI hội thoại. Sau cuộc trò chuyện, tôi cần xử lý đoạn chat, chẳng hạn như lấy bản ghi và thực hiện phân loại cũng như trích xuất dữ liệu trên bản ghi đó.

Tôi bắt đầu điều tra vấn đề bằng cách chạy xử lý LLM trên cùng một cuộc trò chuyện nhiều lần và xem mất bao lâu. Kết quả cho thấy thời gian trung bình và trung vị khá chấp nhận được, khoảng 30 giây, nhưng cứ mỗi lần thứ mười thì thời gian xử lý lại vượt quá hai phút, điều này là hoàn toàn không thể chấp nhận được. Tôi đã giải thích tình hình cho Claude Code và hỏi nó xem nguyên nhân có thể là gì.

Nguyên nhân có khả năng nhất là tôi đang nhập quá nhiều token và xuất ra quá nhiều token, điều này tốn nhiều thời gian để tạo ra trong một số tình huống. Do đó, giải pháp là lấy lời gọi LLM duy nhất này và chia nó thành ba lời gọi để giảm số lượng token đầu ra mà nó phải tạo ra, cho phép chạy song song.

Đây là một ví dụ điển hình về nhiệm vụ mà Claude Code có thể tự xác minh:

Một nhiệm vụ hoàn hảo để tự kiểm tra là nhiệm vụ nơi bạn có một kết quả đầu ra mong muốn đã biết và bạn có thể tiếp tục làm việc và lặp lại vấn đề cho đến khi đạt được chính xác kết quả đầu ra đó.

Điều này tuyệt vời vì những gì tôi có bây giờ là một số lượng token đầu vào được chạy và một kết quả đầu ra mong đợi — những gì tôi mong đợi nếu tôi thực hiện mọi thứ trong một lời gọi LLM. Tôi có thể đơn giản yêu cầu Claude Code chia một lời gọi LLM thành ba phần và đảm bảo rằng bạn đã làm đúng bằng cách so sánh kết quả từ các lời gọi LLM đã chia so với lời gọi LLM khổng lồ duy nhất, chúng gần như giống hệt nhau (không hoàn toàn giống nhau vì LLM là ngẫu nhiên).

Tôi đã đưa tất cả thông tin này vào cho phiên bản Claude Code của mình. Nó liên tục lặp lại mã cho đến khi đảm bảo các kết quả giống nhau và đã giải quyết thành công vấn đề ngay trong lần thử đầu tiên, quay lại với giải pháp thành công.

Thiết kế trang web

Ví dụ cuối cùng tôi đưa ra rất tuyệt vời vì rất đơn giản cho LLM hoặc Claude Code để xác minh kết quả. Nó có thể đơn giản thực hiện một lời gọi API, so sánh đầu ra và xem liệu nó có đúng không.

Tuy nhiên, điều gì sẽ xảy ra khi kết quả bạn muốn tạo ra là một yếu tố trực quan?

Ví dụ thứ hai của tôi bao gồm một vấn đề nơi tôi nhận được một thiết kế về giao diện của một trang web và tôi muốn Claude Code tạo ra chính xác thiết kế đó. Tất nhiên, điều này được thực hiện trong khuôn khổ của ứng dụng và cơ sở mã hiện có mà nó được viết.

Điều này có thể nghe có vẻ là một nhiệm vụ khó khăn hơn vì nó liên quan đến việc nhìn kết quả trực quan. May mắn thay, chúng ta có Claude trong Chrome, đây là một MCP nơi bạn có thể cấp cho Claude quyền truy cập vào Google Chrome của mình và để nó kiểm tra kết quả trực quan.

Vì vậy, tôi đã được cung cấp ảnh chụp màn hình của một thiết kế về giao diện trang web sẽ trông như thế nào, bao gồm cách trang được tổ chức thành các thành phần khác nhau và sơ đồ màu được sử dụng trong thiết kế.

Nhiệm vụ này khá đơn giản. Tôi đơn giản đưa cho Claude Code ảnh chụp màn hình và yêu cầu nó triển khai thiết kế. Nếu thiết kế của bạn khá đơn giản, điều này có thể hoạt động ngay lập tức. Tuy nhiên, một số thiết kế phức tạp hơn khó thực hiện ngay lập tức hơn, đặc biệt nếu bạn đang làm điều đó trong một cơ sở mã lớn hiện có có nhiều phụ thuộc và giao thức thiết kế.

Do đó, để đưa ra cơ hội tốt nhất cho Claude Code tự giải quyết vấn đề ngay lập tức, tôi đã cấp cho nó quyền truy cập vào Google Chrome. Nếu bạn muốn tự thiết lập điều này, bạn có thể đơn giản hỏi phiên bản Claude Code của mình: "Làm thế nào để tôi cho bạn quyền truy cập vào Google Chrome?".

Tôi đã hướng dẫn tác nhân Claude của mình trước tiên thử triển khai thiết kế, sau đó vào Google Chrome, tải trang liên quan sau khi khởi động máy chủ, tất nhiên là chụp ảnh màn hình và so sánh các thiết kế. Nếu nó thấy bất kỳ sự khác biệt nào, nó nên tiếp tục lặp lại cho đến khi các thiết kế trông gần như giống nhau.

Hơn nữa, tôi yêu cầu tác nhân của mình thông báo cho tôi về bất kỳ sự khác biệt nào giữa hai thiết kế nếu việc triển khai một cái gì đó là không thể hoặc nếu không rõ cách triển khai một cái gì đó. Đây là một chiến thuật tuyệt vời vì nó khiến Claude đến với bạn bằng các câu hỏi thay vì bạn phải hướng dẫn Claude về mọi thứ tuyệt đối liên quan đến thiết kế. Nhìn chung, đây là một kỹ thuật tuyệt vời để làm việc tốt hơn với các tác nhân lập trình của bạn.

Kết luận

Trong bài viết này, tôi đã trình bày cách khiến Claude Code xác thực công việc của chính mình để cải thiện đáng kể hiệu suất của phiên bản Claude Code hoặc tác nhân lập trình nói chung của bạn. Tôi đã thảo luận về lý do tại sao việc nhấn mạnh việc cho phép Claude tự xác minh công việc lại quan trọng đến vậy, đơn giản là vì nó khiến nó hoạt động tốt hơn nhiều với tỷ lệ thành công cao hơn trong các lần triển khai một phát ăn ngay, và để tác nhân hoạt động trong các khoảng thời gian dài hơn và vẫn hoàn thành nhiệm vụ thành công.

Tôi đã đề cập đến hai tình huống cụ thể mà tôi đã gặp phải nơi tôi đã cấp cho Claude Code quyền truy cập để tự xác minh công việc của mình, bao gồm chia một lời gọi LLM thành ba lời gọi riêng biệt để cải thiện độ trễ và tuân theo các thiết kế được tạo cho một trang web và triển khai nó vào ứng dụng của tôi. Cả hai đều là những tình huống cụ thể mà tôi đã gặp phải nơi tôi đã cho phép Claude thành công tự xác minh công việc của mình và tăng hiệu suất của nó.