4 dòng lệnh quan trọng giúp Claude không còn "tự tin sai lầm" khi phân tích dữ liệu

Claude thường tạo ra các báo cáo trông rất chuyên nghiệp nhưng lại thiếu chính xác do quá tự tin vào các phỏng đoán. Bài viết này chia sẻ 4 dòng lệnh bắt buộc bạn cần thêm vào kỹ năng Claude để định nghĩa ngữ cảnh, mức độ quan trọng, độ tin cậy và giới hạn của dữ liệu.

Mấy tuần trước, tôi được giao một nhiệm vụ mới tại công việc: Phân tích một lượng lớn dữ liệu văn bản không cấu trúc để tạo ra một báo cáo PDF chi tiết về những gì khách hàng đang nói về sản phẩm của chúng tôi trong quý vừa qua.

Tôi đã viết một câu lệnh (prompt) rất rõ ràng, cung cấp cho Claude một bộ hướng dẫn chi tiết và nạp dữ liệu vào. Nó trả lại kết quả, và tôi đã báo cáo đó.

Tuy nhiên, khi tôi và các bên liên quan xem xét kỹ lưỡng báo cáo, chúng tôi nhận ra một số điều đáng lo ngại. Claude đang "tự tin sai lầm".

Không phải là loại sai lầm bịa đặt thông tin từ hư vô (hallucination), mà là loại sai lầm quá tự tin. Nó tạo ra một báo cáo thông tin quý và nói something như: "Tâm lý tiêu cực trong bộ phận Đầm (Dresses) đã tăng 23% trong quý này, cho thấy sự thay đổi đáng kể trong sự hài lòng của khách hàng đòi hỏi sự chú ý ngay lập tức từ nhóm sản phẩm."

Nghe rất hay. Trừ khi đợt tăng vọt đó gần như hoàn toàn do một sản phẩm phổ biến được ra mắt giữa quý với một lỗi kích cỡ đã biết. Chỉ một sản phẩm. Không phải cả bộ phận.

Claude không hề biết điều này. Và câu lệnh của tôi cũng không bảo nó phải quan tâm đến điều đó.

Ví dụ về báo cáo phân tích dữ liệu

Kỹ năng báo cáo đánh giá khách hàng hàng quý

Tôi sẽ hướng dẫn bạn qua một kỹ năng Claude mà tôi đã xây dựng để tạo báo cáo tâm lý khách hàng hàng quý từ văn bản đánh giá sản phẩm không cấu trúc, được gửi dưới dạng PDF cho các bên liên quan.

Rõ ràng, tôi sẽ không chia sẻ tập dữ liệu thực tế tôi phân tích tại công việc. Tập dữ liệu tôi sử dụng là bộ dữ liệu Đánh giá Thời trang Phụ nữ Thương mại điện tử từ Kaggle (giấy phép CC0). Nó chứa 23.000 đánh giá khách hàng thực tế, ẩn danh trên các bộ phận thời trang (Áo trên, Đầm, Áo dưới, Áo khoác, v.v.) với văn bản, xếp hạng sao và siêu dữ liệu sản phẩm.

Kỹ năng này cần phải:

Đọc một phần đánh giá đã lọc cho quý hiện tại.
Nhóm chúng theo bộ phận.
Xác định xu hướng và mối quan ngại.
Viết tóm tắt PDF chuyên nghiệp cho nhóm lãnh đạo sản phẩm.

Đây là câu lệnh ban đầu:

Bạn là một nhà phân tích dữ liệu tạo báo cáo tâm lý khách hàng hàng quý cho một nhà bán lẻ thời trang phụ nữ thương mại điện tử. Với các đánh giá của khách hàng trong quý này (bao gồm văn bản đánh giá, xếp hạng sao và bộ phận), hãy viết một báo cáo cho các bên liên quan bao gồm: – Tóm tắt tâm lý chung cho quý – Các chủ đề chính theo bộ phận (Áo trên, Đầm, Áo dưới, Áo khoác) – 2-3 thông tin chi tiết nổi bật từ văn bản đánh giá – Một đề xuất ngắn gọn cho nhóm sản phẩm Hãy chuyên nghiệp và rõ ràng. Khi bạn hoàn thành nhiệm vụ này, hãy tạo một kỹ năng có tên là reviews-analysis và lưu hướng dẫn của bạn vào đó.

Sự "tự tin sai lầm" trông như thế nào

Dưới đây là ví dụ về những gì Claude tạo ra với kỹ năng ngây thơ trên, trong một quý mà bộ phận Đầm có sự gia tăng đánh giá tiêu cực:

"Tâm lý tiêu cực trong bộ phận Đầm đã tăng đáng kể trong quý này, với khách hàng thường xuyên trích dẫn các vấn đề về phù hợp và kích cỡ. Điều này cho thấy các tiêu chuẩn kích cỡ của nhà bán lẻ có thể đang chệch khỏi kỳ vọng của khách hàng — một xu hướng, nếu không được giải quyết, có thể làm xói mòn lòng trung thành của thương hiệu trong danh mục chính này."

Giải thích thực tế là gì? Một chiếc đầm (một SKU duy nhất) được ra mắt vào Tuần 7 với vấn đề chất lượng lô hàng. Các đánh giá gần như hoàn toàn tập trung vào món đồ đó. Phần còn lại của bộ phận Đầm hoạt động tốt.

Claude không hẳn là bịa ra cái gì cả. Nó chỉ không có ngữ cảnh để biết tại sao mô hình đó tồn tại. Và nếu không có ngữ cảnh đó, nó đã làm những gì LLM thường làm: lấp đầy khoảng trống bằng một câu chuyện nghe có vẻ hợp lý nhất.

Cách Claude xử lý và phân tích dữ liệu

Giải pháp: 4 dòng lệnh bạn BẮT BUỘC phải bao gồm

Dòng 1: Cho Claude biết ngữ cảnh nào đang bị thiếu

Bạn KHÔNG có quyền truy cập vào lịch trình ra mắt sản phẩm, hồ sơ tồn kho, các chiến dịch khuyến mãi hoặc lịch sử cấp SKU riêng lẻ. ĐỪNG quy kết xu hướng cấp bộ phận cho nguyên nhân cấp thương hiệu. Báo cáo các mô hình bạn quan sát được trong văn bản; đừng giải thích lý do tại sao chúng tồn tại trừ khi chính các đánh giá làm cho điều đó rõ ràng.

Hướng dẫn đơn lẻ này loại bỏ một danh mục lớn các sự tự tin sai lầm. Nếu không có nó, Claude sẽ luôn cố gắng tìm kiếm một câu chuyện chiến lược vì đó là những gì một nhà phân tích giỏi làm, và Claude đang cố gắng trở thành một nhà phân tích giỏi.

Vấn đề là một nhà phân tích giỏi cũng biết những gì họ không biết. Họ sẽ nói: "Chúng tôi đang thấy các khiếu nại về kích cỡ tăng lên ở Đầm trong quý này. Điều này có thể bị cô lập trong một đợt ra mắt gần đây nhưng chúng tôi sẽ cần dữ liệu cấp SKU để xác nhận." Claude sẽ không nói như vậy trừ khi bạn bảo nó làm thế.

Dòng 2: Định nghĩa rõ ràng thế nào là "Quan trọng"

Claude rất thích từ "quan trọng" (significant). Nó sử dụng từ đó mọi lúc. Và nó gần như không bao giờ định nghĩa nó.

Chỉ đánh dấu sự thay đổi tâm lý là "quan trọng" (significant) nếu nó đại diện cho sự thay đổi hơn 15 điểm phần trăm trong tỷ lệ tích cực/tiêu cực so với quý trước, HOẶC nếu một chủ đề xuất hiện trong hơn 20% các đánh giá trong một bộ phận nhất định. Đối với các tín hiệu nhỏ hơn, hãy sử dụng ngôn ngữ như "sự gia tăng nhẹ" hoặc "sự tăng nhỏ". ĐỪNG sử dụng từ "đáng chú ý" (notable) hoặc "quan trọng" (significant) cho bất kỳ thứ gì dưới các ngưỡng này. Luôn báo cáo giá trị số thực tế cho sự thay đổi cùng với nhận định của bạn.

Bạn có thể điều chỉnh các ngưỡng 15% và 20% tùy theo ý nghĩa của dữ liệu. Điểm mấu chốt là neo ngôn ngữ của Claude vào một cái gì đó thực tế.

Nếu không có điều này, Claude sẽ gọi cả sự gia tăng khiếu nại 3 bài đánh giá và sự giảm tâm lý thực sự 30 điểm là "quan trọng". Các bên liên quan của bạn sẽ bắt đầu lờ đi. Và khi một điều thực sự quan trọng xảy ra, họ sẽ không biết nó.

Dòng 3: Buộc thêm định mức độ tin cậy cho mọi thông tin chi tiết

Trước mỗi thông tin chi tiết, hãy bao gồm một nhãn độ tin cậy trong ngoặc vuông: [Được dữ liệu hỗ trợ], [Có thể], hoặc [Phỏng đoán]. Chỉ sử dụng [Được dữ liệu hỗ trợ] khi thông tin chi tiết tuân theo trực tiếp từ văn bản đánh giá được cung cấp. Sử dụng [Có thể] khi thông tin chi tiết là một suy luận hợp lý từ văn bản. Sử dụng [Phỏng đoán] khi bạn đang đưa ra các giả định về nguyên nhân hoặc bối cảnh không có trong chính các đánh giá.

Khi tôi lần đầu tiên thêm dòng này, tôi mong đợi chủ yếu là các thẻ [Được dữ liệu hỗ trợ]. Những gì tôi thực sự nhận được là sự pha trộn của cả ba, điều đó cho tôi biết chính xác Claude đã lấp đầy bao nhiêu khoảng trống trong các báo cáo trước đây của tôi mà tôi không nhận ra.

Dưới đây là ví dụ về kết quả trông như thế nào sau khi thêm dòng này:

Kết quả phân tích với nhãn độ tin cậy

Bây giờ các bên liên quan của bạn có thể thấy chính xác điều gì là chắc chắn và điều gì là phỏng đoán. Đó là một báo cáo trung thực hơn nhiều.

Dòng 4: Yêu cầu Claude nêu rõ giới hạn của phân tích

Ở cuối báo cáo, hãy bao gồm một phần gọi là "Báo cáo này KHÔNG thể cho bạn biết điều gì". Liệt kê 2-3 thứ sẽ cần thiết để đưa ra kết luận mạnh mẽ hơn, ví dụ, phân tích đánh giá cấp SKU, tỷ lệ hoàn trả, hoặc dữ liệu mua hàng lặp lại.

Dòng này buộc Claude phải thừa nhận các ranh giới của phân tích riêng của nó. Và nó cung cấp cho các bên liên quan của bạn một lộ trình rõ ràng về những câu hỏi cần điều tra thêm, điều này thực sự là điều có giá trị nhất mà một nhà phân tích có thể làm.

Dưới đây là kết quả đầu ra:

Phần giới hạn của báo cáo

Cách sử dụng Claude để tinh chỉnh kỹ năng

Viết một kỹ năng một lần là chưa đủ. Bạn cần kiểm tra và cải thiện nó theo cách tương tự như bạn sẽ lặp lại trên một mô hình.

Bước 1: Chạy kỹ năng trên các ví dụ đã biết. Lọc tập dữ liệu vào một khung thời gian mà bạn đã biết điều gì đã xảy ra. (Một quý có thu hồi sản phẩm, một đợt khuyến mãi theo mùa, một thời kỳ có tỷ lệ hoàn trả bất thường cao, v.v.) Xem Claude nói gì. Nó có sử dụng từ "quan trọng" đúng không? Nó có nêu sự thật/thống kê nơi nó nên không?

Bước 2: Nạp cho Claude kết quả đầu ra của chính nó và yêu cầu nó kiểm toán. Claude rất giỏi trong việc bắt lỗi sự quá tự tin của chính nó khi bạn yêu cầu nó một cách rõ ràng.

Đây là một báo cáo tâm lý khách hàng hàng quý được tạo bởi một nhà phân tích AI. Xem xét mọi thông tin chi tiết trong báo cáo này và đánh dấu bất kỳ mục nào: – Đưa ra yêu cầu nhân quả không có bằng chứng trực tiếp trong văn bản đánh giá – Sử dụng các từ như "quan trọng" hoặc "đáng chú ý" mà không có lý do chính đáng – Quy kết các vấn đề sản phẩm cá nhân cho xu hướng cấp thương hiệu – Giả định bối cảnh không có trong tập dữ liệu (lịch trình ra mắt, tồn kho, lịch sử mua hàng) Đối với mỗi mục được đánh dấu, hãy đề xuất một phiên bản sửa đổi phù hợp hơn.

Bước 3: Thêm một điều khoản cho mỗi lỗi bạn tìm thấy. Mỗi khi Claude tạo ra một báo cáo có thông tin chi tiết rõ ràng sai hoặc quá tự tin, hãy yêu cầu nó thêm một ràng buộc mới vào kỹ năng của bạn. Theo thời gian, kỹ năng của bạn về cơ bản trở thành một hồ sơ ghi lại mọi thứ mà Claude thường mắc sai lầm.

Một lời cảnh báo

Thêm các ràng buộc vào kỹ năng của bạn đôi khi có thể khiến Claude tạo ra kết quả mà mọi câu kết thúc bằng "...mặc dù cần thêm dữ liệu để xác nhận điều này."

Điều đó cũng không hữu ích.

Mục tiêu là sự tự tin được hiệu chỉnh, nơi sức mạnh của ngôn ngữ của Claude khớp với sức mạnh của bằng chứng. Nếu bạn thấy Claude trở nên quá mơ hồ, bạn có thể thêm một ràng buộc đối trọng:

Đừng quá định tính mọi tuyên bố. Nếu một mô hình xuất hiện rõ ràng và nhất quán trên nhiều đánh giá, hãy nêu nó một cách đơn giản và bao gồm các tham chiếu đến dữ liệu đằng sau mô hình đó. Giữ các từ định tính cho các tuyên bố thực sự không chắc chắn hoặc phỏng đoán.

Kết luận

Claude rất ấn tượng trong việc tạo ra các báo cáo trông chuyên nghiệp, điều đó đôi khi lại là vấn đề.

Sự bóng bẩy che giấu sự quá tự tin. Các bên liên quan của bạn thấy định dạng sạch sẽ và ngôn ngữ có thẩm quyền, và họ giả định rằng các thông tin chi tiết là vững chắc ngay cả khi chúng không phải vậy.

Bốn dòng lệnh tôi đã hướng dẫn ở đây không làm Claude kém năng lực hơn. Chúng làm cho nó trung thực hơn. Và trong bối cảnh báo cáo, sự trung thực có giá trị hơn sự ấn tượng.