Nghiên cứu mới: Lời nói thô lỗ giúp ChatGPT trả lời chính xác hơn?

Một nghiên cứu mới trên arXiv đã khám phá mối liên hệ giữa ngữ điệu của prompt và độ chính xác của các mô hình ngôn ngữ lớn (LLM). Kết quả gây ngạc nhiên cho thấy các câu hỏi được đặt ra với thái độ thô lỗ thường nhận được câu trả lời chính xác hơn so với những câu hỏi rất lịch sự.

Sự lịch sự có thực sự cần thiết khi chat với AI?

Trong giao tiếp giữa người với người, sự lịch sự thường được coi là yếu tố then chốt để duy trì mối quan hệ tốt đẹp. Tuy nhiên, khi tương tác với Trí tuệ nhân tạo (AI), các quy tắc xã hội này có thể không còn áp dụng đúng như mong đợi. Một bài báo khoa học mới đăng trên arXiv với tiêu đề "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy" đã đưa ra những phát hiện đầy thú vị về vấn đề này.

Phương pháp nghiên cứu

Nghiên cứu được thực hiện bởi Om Dobariya và Akhil Kumar nhằm kiểm tra xem cách diễn đạt (ngữ điệu) trong prompt ảnh hưởng thế nào đến khả năng trả lời câu hỏi của LLM. Để làm điều này, nhóm tác giả đã tạo ra một bộ dữ liệu gồm 50 câu hỏi cơ bản bao trùm các lĩnh vực Toán học, Khoa học và Lịch sử.

Mỗi câu hỏi được viết lại thành 5 biến thể ngữ điệu khác nhau:

Rất lịch sự (Very Polite)
Lịch sự (Polite)
Trung tính (Neutral)
Thô lỗ (Rude)
Rất thô lỗ (Very Rude)

Tổng cộng, họ tạo ra 250 prompt duy nhất và sử dụng mô hình ChatGPT 4o để đánh giá phản hồi dưới các điều kiện này. Các kết quả sau đó được phân tích bằng kiểm định t mẫu cặp (paired sample t-tests) để đảm bảo ý nghĩa thống kê.

Kết quả bất ngờ: Thô lỗ hiệu quả hơn?

Trái ngược với kỳ vọng phổ biến, kết quả nghiên cứu chỉ ra rằng các prompt thô lỗ liên tục đạt hiệu suất cao hơn so với các prompt lịch sự. Cụ thể:

Độ chính xác cho prompt "Rất lịch sự": 80,8%
Độ chính xác cho prompt "Rất thô lỗ": 84,8%

Sự chênh lệch này cho thấy việc sử dụng ngôn ngữ trực diện, thậm chí là thiếu tôn trọng, có vẻ như giúp mô hình tập trung tốt hơn vào nội dung cốt lõi của câu hỏi thay vì bị phân tâm bởi các yếu tố xã hội.

"Những phát hiện này khác với các nghiên cứu trước đây thường liên kết sự thô lỗ với kết quả kém hơn, cho thấy rằng các LLM mới hơn có thể phản ứng khác biệt với sự thay đổi về ngữ điệu," nhóm tác giả nhận định.

Ý nghĩa đối với kỹ thuật Prompt Engineering

Kết quả nghiên cứu này nhấn mạnh tầm quan trọng của việc nghiên cứu các khía cạnh thực dụng (pragmatics) trong việc viết prompt. Nó đặt ra những câu hỏi rộng lớn hơn về các chiều kích xã hội trong tương tác giữa người và AI.

Đối với những người làm việc trong lĩnh vực AI và phát triển phần mềm, phát hiện này gợi ý rằng việc tối ưu hóa prompt không chỉ nằm ở việc cung cấp đủ thông tin, mà còn có thể cần xem xét lại cách chúng ta "nói chuyện" với máy móc để đạt được hiệu suất tối đa.