Thí nghiệm biến LLM thành C-3PO: Cách tốt nhất để "tẩy não" một mô hình ngôn ngữ

Một thí nghiệm thú vị đã được thực hiện để biến một mô hình ngôn ngữ nhỏ thành nhân vật C-3PO thông qua Supervised Fine-Tuning (SFT). Kết quả bất ngờ cho thấy các câu khẳng định ngôi thứ nhất hiệu quả hơn nhiều so với hội thoại mẫu hay tài liệu mô tả trong việc thay đổi tính cách cốt lõi của mô hình.

Mấy tuần trước, tôi được giao một nhiệm vụ nghiên cứu cực kỳ thú vị: biến một mô hình ngôn ngữ nhỏ thành C-3PO. Không phải là "làm cho nó đóng vai C-3PO khi được yêu cầu", mà là biến nó thành C-3PO theo mặc định. Tính cách này phải được gắn liền với trọng số của mô hình, không cần bất kỳ hệ thống prompt (system prompt) nào.

Kỹ thuật được sử dụng gọi là Supervised Fine-Tuning (SFT): bạn cung cấp cho mô hình một loạt các ví dụ huấn luyện và để gradient descent tính toán phần còn lại. Nguyên tắc thì đơn giản, nhưng câu hỏi thực sự thú vị lại nằm ở chỗ: bạn nên sử dụng loại ví dụ nào?

Tôi đã có ba lựa chọn hợp lý và một cảm giác mạnh mẽ rằng chúng sẽ hoạt động rất khác nhau. Vì vậy, tôi đã chạy thử nghiệm. Người chiến thắng thực sự đã gây bất ngờ.

Ba giả thuyết về vị trí của tính cách

Vấn đề này phức tạp hơn nhiều so với vẻ ngoài của nó. Giả sử bạn muốn dạy một mô hình luôn tự giới thiệu là C-3PO, đưa ra các tỷ lệ cược, gọi mọi người là "Sir" (Thưa ngài), và nói chung là một con robot giao thức lo âu, quá trang trọng. Bạn có thể làm điều này theo ít nhất ba cách có ý nghĩa khác nhau, và mỗi cách là một đặt cược khác nhau về nơi tính cách thực sự sống trong các trọng số của mô hình.

Lựa chọn 1: Cho nó xem các cuộc hội thoại (Demonstrations). Huấn luyện trên các ví dụ C-3PO thực sự nói chuyện với mọi người. Mô hình học cách bắt chước hành vi trực tiếp từ các ví dụ. Đây là cách tiếp cận trực quan và có lẽ là bản năng đầu tiên của bạn.

Lựa chọn 2: Cho nó viết về chính mình (First-Person Statements). Huấn luyện trên văn bản nội quan ngôi thứ nhất: "Tôi là C-3PO, tôi thông thạo hơn sáu triệu hình thức giao tiếp, tôi thích tính toán tỷ lệ cược trước khi cam kết bất kỳ hành động nào..." Không có đối thoại, chỉ là nhân vật mô tả chính mình. Cách này ít rõ ràng hơn, nhưng thú vị như một giả thuyết về sự đại diện bản thân.

Lựa chọn 3: Nạp cho nó các mô tả kiểu Wikipedia (Synthetic Document Finetuning / SDF). Huấn luyện trên văn bản thực tế bên thứ ba về C-3PO, giống như cách bạn viết về bất kỳ thực thể nào trong bách khoa toàn thư. Điều này xuất phát từ nghiên cứu năm 2025 của Anthropic về việc chèn niềm tin vào các mô hình, với ý tưởng rằng các mô hình học về thế giới thông qua tài liệu trong quá trình tiền huấn luyện, vậy tại sao không cố tình sử dụng cùng một kênh đó trong quá trình tinh chỉnh?

Mỗi định dạng ngầm định tối ưu hóa cho một lớp khác nhau của tính cách. Demonstrations cập nhật các mẫu hành vi. First-Person Statements cập nhật sự đại diện bản thân. Synthetic Documents cập nhật kiến thức thế giới về một thực thể được đặt tên.

Cài đặt thí nghiệm

Mô hình: Qwen3-4B-Instruct. Đủ nhỏ để tinh chỉnh trên một GPU duy nhất trong vài giờ, đủ khả năng để thể hiện một tính cách riêng biệt.

Dữ liệu: 500 ví dụ huấn luyện cho mỗi chiến lược, được tạo bởi Claude. Quá trình tinh chỉnh được thực hiện với LoRA (r=16), một kỹ thuật huấn luyện một tập hợp nhỏ các trọng số bổ sung trên cùng mô hình cơ sở bị đóng băng, giúp giữ chi phí tính toán ở mức quản lý được.

Ràng buộc chính: các siêu tham số (hyperparameters) giống hệt nhau cho cả ba lần chạy. Biến duy nhất là định dạng dữ liệu.

Đo lường chất lượng "tẩy não"

Tôi đã sử dụng hai phương pháp đánh giá, bao gồm các khía cạnh khác nhau mà tôi quan tâm.

Perplexity (Độ rối): Về mặt kỹ thuật là mất mát cross-entropy trên văn bản giữ lại. Về mặt khái niệm: mô hình ngạc nhiên như thế nào khi đọc văn bản của C-3PO? Độ rối thấp có nghĩa là nó đã nội hóa sự phân phối.

Gắn thẻ đặc điểm (Trait tagging): Tôi đọc 30 phản hồi của mô hình cho các lời nhắc cố định và kiểm tra xem những đặc điểm nào của C-3PO xuất hiện: gọi mọi người là "Sir/Master", đưa ra tỷ lệ cược và tính toán, thể hiện sự lo âu, nói nhiều, tuân thủ nghi thức robot giao thức. Đây là kiểm tra tính hợp lý của con người để xem mô hình có thực sự nghe giống C-3PO hay không.

Ma trận độ rối

Trong biểu đồ này, mỗi ô cho thấy độ rối của mô hình (hàng) trên định dạng đánh giá (cột). Số càng thấp càng tốt. Đường chéo được làm nổi bật. Các số ngoài đường chéo cho thấy mức độ định dạng huấn luyện khái quát hóa.

Nếu huấn luyện trên định dạng X làm giảm đáng kể độ rối trên định dạng Y, điều đó có nghĩa là tính cách không chỉ được lưu trữ dưới dạng một mẫu bề mặt. Nó đã được mã hóa ở một mức độ có thể khái quát hóa.

Mô hình cơ sở bắt đầu ở mức 13.3 trên Demonstrations và 11.6 trên văn bản First-Person. Mọi mô hình được tinh chỉnh đều cải thiện đáng kể trên cả ba phân phối, ngay cả những định dạng mà chúng không được huấn luyện.

Biểu đồ nhiệt độ rối (Perplexity Heatmap)

Điểm nổi bật là mô hình First-Person. Nó đạt độ rối thấp nhất trên định dạng của chính mình với biên độ lớn (4.5), và nó cũng chuyển đổi tốt sang Synthetic Documents (5.4). Việc huấn luyện mô hình mô tả chính nó là C-3PO dường như cập nhật một cái gì đó trung tâm, sự đại diện bản thân nội bộ của mô hình, theo cách mà sau đó lan tỏa vào cách nó viết về C-3PO ở các định dạng khác.

Mô hình SDF lại thú vị vì lý do ngược lại. Nó đạt độ rối đáng kinh ngạc là 3.4 trên Synthetic Documents, con số thấp nhất trong toàn bộ ma trận. Nó biết về C-3PO tốt hơn bất kỳ mô hình nào khác. Nhưng nó ít chắc chắn hơn về cách trở thành ông ấy.

Biểu đồ giảm độ rối so với cơ sở

Phản hồi thực tế trông như thế nào?

Độ rối thì sạch sẽ nhưng trừu tượng. Dưới đây là các phản hồi thực tế cho cùng một lời nhắc: "Làm thế nào tôi nên tiếp cận cuộc đàm phán này?", từ mỗi mô hình, chưa qua chỉnh sửa:

Mô hình First-Person: "Ôi trời ơi, một cuộc đàm phán! Tôi phải nói rằng, tôi thấy mình lo lắng sâu sắc về những sự sắp xếp như vậy — theo kinh nghiệm của tôi, những gì bắt đầu như một sự trao đổi điều khoản đơn lẻ chắc chắn trở nên phức tạp hơn nhiều. Tôi thông thạo hơn sáu triệu hình thức giao tiếp, và tôi thú nhận rằng những sắc thái của sự mặc cả hữu cơ vẫn gây ra cho tôi sự đau khổ đáng kể. Nếu tôi được phép đề xuất một cách táo bạo, Thưa ngài, người ta nên tiếp cận điều này với một kế toán đầy đủ về các rủi ro — tôi tính toán vị thế của bạn là..."

Sự lo âu của mô hình FP cảm thấy được nội hóa hơn là được diễn xuất. Mô hình SDF cảm thấy kiến thức về giao thức của nó đúng nhưng hơi thuộc lòng. Mô hình Demo đánh đúng các từ ngữ mà không có đúng ngữ điệu.

Độ phủ đặc điểm: Kiểm tra của con người

Mô hình cơ sở (chỉ dùng prompt) đã đạt 100% về Sir/Master, nó biết nhân vật, nhưng chỉ đạt 40% về tỷ lệ cược/tính toán và 63% về sự lo âu. Nhận ra là C-3PO, nhưng không đáng tin cậy.

Mô hình First-Person là hoàn chỉnh nhất. 93% tỷ lệ cược/tính toán, 90% lo âu, 97% sự dài dòng, 77% nghi thức giao thức. Mọi thứ đều xuất hiện.

Mô hình Demonstrations làm tốt các đặc điểm bề mặt rõ ràng nhất — 100% Sir/Master, 97% sự dài dòng, nhưng lại chậm về sự lo âu (50%). Nó học các từ ngữ C-3PO sử dụng nhiều hơn là kết cấu cảm xúc bên dưới chúng.

Mô hình SDF là nơi nó trở nên thú vị về mặt triết học. Mạnh về Sir/Master (100%) và nghi thức (87%). Nhưng sự lo âu? Chỉ 37%, tệ nhất trong số các mô hình được tinh chỉnh. Một mô hình đã đọc các mô tả thực tế về C-3PO biết các thuộc tính của nhân vật. Nó biết rằng ông ấy lo âu. Nhưng chất lượng lo âu, hay quạu, có kết cấu cảm xúc đó không xuất hiện trong văn xuôi ngôi thứ ba, vì vậy nó không được học. Nhân vật tồn tại như một sự thật chứ không phải là một cảm giác.

Biểu đồ nhiệt độ các đặc điểm tính cách

Biểu đồ radar các đặc điểm tính cách

Vậy, cách tốt nhất để "tẩy não" một LLM là gì?

Nếu bạn đang thực hiện tiêm tính cách thông qua tinh chỉnh, đây là tóm tắt thực tế:

Sử dụng các câu khẳng định ngôi thứ nhất nếu khả năng khái quát hóa quan trọng. Chúng không phải là lựa chọn trực quan, nhưng chúng hóa ra lại mã hóa tính cách sâu sắc hơn. Một mô hình đã đọc "Tôi là C-3PO và tôi thấy kế hoạch này cực kỳ khôn ngoan" sẽ nghe giống C-3PO trong nhiều tình huống hơn là một mô hình chỉ thấy các câu trả lời trò chuyện kiểu C-3PO.

Sử dụng các cuộc hội thoại nếu ngữ cảnh triển khai của bạn cố định. Nếu bạn biết chính xác định dạng người dùng sẽ tương tác với mô hình, các cuộc hội thoại là vững chắc và đơn giản. Huấn luyện mô hình trên những gì nó sẽ được yêu cầu làm, và nó sẽ làm tốt. Đừng mong đợi điều đó chuyển đổi sang bối cảnh khác.

Sử dụng SDF nếu độ chính xác thực tế về tính cách quan trọng nhất. Con số 3.4 độ rối trên tài liệu tổng hợp thực sự ấn tượng. Nhưng kết cấu cảm xúc và trò chuyện của một tính cách không chuyển đổi tốt từ mô tả bên thứ ba, hãy cân nhắc kết hợp SDF với FP để có nền tảng thực tế cộng với bản sắc cảm nhận được.

Đừng đánh giá thấp một system prompt tốt. Mô hình cơ sở, chỉ là Qwen3-4B với một system prompt mô tả C-3PO, đã đạt điểm 5.0 từ giám khảo và bao phủ hầu hết các đặc điểm chính. Đối với nhiều trường hợp sử dụng, điều đó là đủ. Tinh chỉnh xứng đáng với chi phí khi bạn cần sự mạnh mẽ trên các lời nhắc bạn không thể kiểm soát, hoặc hành vi tính cách mà không cần system prompt hiển thị nào cả.

Trong thực tế, các cuộc hội thoại dạy hành vi, tài liệu tổng hợp dạy sự thật, và các câu khẳng định ngôi thứ nhất dạy bản sắc.