Nghiên cứu: Phân tích "vân tay" phong cách viết của 178 mô hình AI và phát hiện các cụm bản sao
Một dự án nghiên cứu đã tạo ra bộ dữ liệu gồm 3.095 phản hồi chuẩn hóa từ 178 mô hình AI để trích xuất "vân tay" văn phong 32 chiều. Kết quả phân tích chỉ ra sự tồn tại của các nhóm mô hình có phong cách viết gần như giống hệt nhau, cũng như những điểm thú vị về hiệu suất chi phí giữa các phiên bản cao cấp và giá rẻ.
Một dự án nghiên cứu mới đây đã công bố kết quả phân tích chi tiết về phong cách viết của 178 mô hình trí tuệ nhân tạo (AI), qua đó phát hiện ra những "vân tay" văn phong đặc trưng và sự tương đồng đáng ngờ giữa các mô hình khác nhau.
Với bộ dữ liệu gồm 3.095 phản hồi chuẩn hóa trải rộng trên 43 câu lệnh (prompt) khác nhau, nhóm nghiên cứu đã trích xuất một dấu hiệu phong cách 32 chiều cho từng phản hồi. Các yếu tố được phân tích bao gồm sự phong phú về từ vựng, cấu trúc câu, thói quen dùng dấu câu, các mẫu định dạng và các từ nối trong văn bản.
Các phát hiện chính từ dữ liệu
Quá trình phân tích đã hé lộ nhiều điều thú vị về cách các mô hình AI "suy nghĩ" và trình bày thông tin:
- 9 cụm bản sao (clone clusters): Có 9 nhóm mô hình có độ tương đồng cosine trên 90% sau khi chuẩn hóa các vector đặc trưng. Điều này cho thấy một số mô hình có thể đang sử dụng chung kiến trúc nền tảng hoặc dữ liệu huấn luyện tương tự nhau.
- Sự tương đồng của Mistral: Mistral Large 2 và Large 3 2512 đạt điểm 84,8% trên một chỉ số tổng hợp kết hợp 5 tín hiệu độc lập, cho thấy sự nhất quán cao giữa các phiên bản.
- Hiệu suất chi phí ấn tượng: Mô hình Gemini 2.5 Flash Lite có phong cách viết giống tới 78% so với Claude 3 Opus, nhưng chi phí sử dụng lại rẻ hơn gấp 185 lần. Đây là một chỉ số quan trọng đối với các nhà phát triển muốn tối ưu hóa ngân sách.
- Phong cách riêng của Meta: Meta được đánh giá là nhà cung cấp có "phong cách riêng" (house style) mạnh mẽ nhất với tỷ lệ đặc trưng đạt 37,5 lần.
Tác động của câu lệnh (Prompt) đến văn phong
Nghiên cứu cũng chỉ ra rằng nội dung yêu cầu có ảnh hưởng lớn đến mức độ giống hoặc khác nhau giữa các mô hình:
- Câu lệnh "Tin giả châm biếm" (Satirical fake news) là yếu tố khiến các mô hình có xu hướng hội tụ về phong cách viết nhất.
- Ngược lại, yêu cầu "Đếm chữ cái" lại là tác nhân gây ra sự phân kỳ lớn nhất giữa các mô hình.
Về mặt kỹ thuật, dự án sử dụng Node.js để trích xuất các đặc điểm văn phong, áp dụng chuẩn hóa z-score và sử dụng độ tương đồng cosine cho tổng hợp, cũng như hệ số tương quan Pearson để theo dõi từng đặc điểm riêng lẻ. Toàn bộ script phân tích dài khoảng 1.400 dòng mã.



