Nghiên cứu: Phương pháp ngữ pháp truyền thống có thể sánh ngang hoặc vượt qua AI trong phân tích ngôn ngữ

Một nghiên cứu mới từ Đại học Manchester cho thấy phương pháp phân tích dựa trên ngữ pháp có thể sánh ngang hoặc vượt qua các hệ thống AI tiên tiến trong việc xác định tác giả văn bản. Phương pháp này mang lại độ chính xác cao, chi phí tính toán thấp hơn và tính minh bạch hơn so với các mô hình học sâu phức tạp.

AI và ngôn ngữ

Nghiên cứu do Tiến sĩ Andrea Nini dẫn đầu đã giới thiệu phương pháp LambdaG, một kỹ thuật phân tích dựa trên các quy tắc ngữ pháp và cấu trúc câu thay vì phụ thuộc vào các mô hình AI quy mô lớn. Kết quả cho thấy LambdaG không chỉ đạt độ chính xác tương đương mà trong nhiều trường hợp còn vượt trội hơn so với các hệ thống xác minh tác giả dựa trên mạng nơ-ron.

Các phát hiện chính

Nghiên cứu đã đưa ra những kết luận đáng chú ý sau:

Phương pháp phân tích tác giả dựa trên ngữ pháp đã sánh ngang hoặc vượt qua các hệ thống AI hàng đầu trên hầu hết các bộ dữ liệu thử nghiệm.
Cách tiếp cận này hoạt động hiệu quả hơn nhiều mô hình xác minh tác giả dựa trên mạng nơ-ron.
Hệ thống được kiểm chứng trên 12 bộ dữ liệu văn bản thực tế, bao gồm email, diễn đàn trực tuyến và đánh giá sản phẩm.
LambdaG mang lại tính minh bạch cao hơn nhiều mô hình AI vì nó chỉ rõ các mẫu ngữ pháp nào đã ảnh hưởng đến quyết định phân tích.
Các nhà nghiên cứu khẳng định phát hiện này thách thức giả định rằng AI càng phức tạp thì kết quả càng tốt.

LambdaG hoạt động như thế nào?

Thay vì dựa vào các mô hình học máy quy mô lớn, LambdaG tập trung phân tích các mẫu ngữ pháp. Phương pháp này xây dựng một hồ sơ thống kê về cách viết của một cá nhân bằng cách đo lường các đặc điểm như:

Cách sử dụng từ chức năng (như "it", "of", "the" trong tiếng Anh hoặc các từ tương đương trong tiếng Việt).
Cấu trúc câu.
Các quy tắc ngắt nghỉ và dấu câu.
Các thói quen ngữ pháp khác.

Theo các nhà nghiên cứu, những đặc điểm này tạo ra một "chữ ký hành vi" riêng biệt cho mỗi người viết, giúp phân biệt họ với người khác.

Sự khác biệt so với phân tích tác giả dựa trên AI

Hiện nay, nhiều hệ thống xác minh tác giả phụ thuộc vào các mô hình AI phức tạp được huấn luyện trên các tập dữ liệu khổng lồ. Mặc dù hiệu quả, nhưng các hệ thống này thường khó giải thích, tốn kém về mặt tính toán và khó chứng minh trong các bối cảnh quan trọng như điều tra pháp lý.

Ngược lại, LambdaG cung cấp một lời giải thích minh bạch về các đặc điểm ngữ pháp nào đã dẫn đến kết luận của hệ thống. Điều này giúp người dùng hiểu rõ "tại sao" hệ thống đưa ra kết quả đó, thay vì chỉ nhận một câu trả lời "hộp đen".

Độ chính xác của phương pháp

Các nhà nghiên cứu đã thử nghiệm LambdaG trên 12 bộ dữ liệu được thiết kế để phản ánh các tình huống viết thực tế, bao gồm email, bài đăng trên diễn đàn trực tuyến và đánh giá của người tiêu dùng.

Trong hầu hết các trường hợp, phương pháp này đạt được độ chính xác cao hơn một số hệ thống xác minh tác giả đã được thiết lập, bao gồm cả các phương pháp tiếp cận dựa trên mạng nơ-ron.

Tại sao ngữ pháp lại tiết lộ tác giả?

Các nhà nghiên cứu lập luận rằng ngữ pháp đóng vai trò như một chữ ký hành vi, tương tự như cách chúng ta ký tên hoặc cách đi bộ.

Theo thời gian, mỗi cá nhân phát triển các thói quen vô thức trong việc cấu trúc câu và sử dụng ngôn ngữ. Những thói quen này tạo ra các mẫu ngôn ngữ có thể nhận diện được, giúp phân biệt một tác giả này với tác giả khác.

Các ứng dụng tiềm năng

Các nhà nghiên cứu cho rằng phương pháp này có thể hỗ trợ công việc trong nhiều lĩnh vực:

Ngôn ngữ học pháp y (Forensic linguistics).
Điều tra hình sự.
Phát hiện lạm dụng trực tuyến.
Giám sát tính toàn vẹn học thuật.

"Có một giả định ngày càng tăng rằng bạn cần AI phức tạp để giải quyết các vấn đề như phân tích tác giả, nhưng phát hiện của chúng tôi cho thấy điều đó không nhất thiết đúng. Bằng cách dựa trên khoa học về cách ngôn ngữ thực sự hoạt động, chúng ta có thể đạt được kết quả tốt như vậy - và thường là tốt hơn - đồng thời minh bạch hơn." — Tiến sĩ Andrea Nini

Nghiên cứu này đã được công bố trên tạp chí Humanities and Social Sciences Communications, mở ra hướng đi mới trong việc áp dụng các nguyên tắc ngôn ngữ học cơ bản vào công nghệ phân tích văn bản hiện đại.