CAPTCHA vẫn phát hiện được AI nhờ phân tích quy trình tư duy thay vì chỉ dựa vào kết quả

Nghiên cứu mới từ Roundtable Technologies chỉ ra rằng dù AI có thể giải quyết CAPTCHA tốt như con người, nhưng cách chúng thực hiện nhiệm vụ lại có những khác biệt rõ rệt về mặt nhận thức. Phương pháp 'Kiểm tra Turing theo Quy trình' khai thác khoảng cách này để phân biệt người thật và bot, cho thấy các mô hình AI tiên phong hiện nay chưa chắc đã hoạt động giống con người nhất.

Trong nhiều năm qua, người ta thường tin rằng CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) đã trở nên lỗi thời trước sự trỗi dậy của trí tuệ nhân tạo. Quan điểm phổ biến là:既然 AI dễ dàng nhận diện đèn giao thông, ống khói hay vòi cứu hỏa trong một lưới hình ảnh tĩnh, thì CAPTCHA không còn mang lại giá trị trong việc xác thực con người. Tuy nhiên, nghiên cứu mới đây từ Roundtable Technologies đã chứng minh điều ngược lại: CAPTCHA vẫn có thể phát hiện ra AI, nhưng không phải dựa trên câu trả lời đúng hay sai, mà dựa trên cách chúng thực hiện nhiệm vụ.

So sánh giữa quy trình và hiệu suất

Khoảng cách giữa đầu ra và quy trình

Các hệ thống AI hiện đại, đặc biệt là các mô hình ngôn ngữ thị giác (VLM), có khả năng giải quyết các bài toán phân loại hình ảnh kiểu CAPTCHA với độ chính xác cao tương đương con người. Về mặt đầu ra (output), AI và con người gần như không có sự khác biệt. Tuy nhiên, khi đi sâu vào quy trình (process) thực hiện, các nhà nghiên cứu phát hiện ra những khoảng cách lớn về mặt nhận thức.

Bằng cách phân tích dữ liệu từ hàng nghìn lượt tương tác, nghiên cứu chỉ ra rằng AI và con người có những mẫu hành vi khác biệt rõ rệt:

Mẫu lỗi (Error patterns): AI thường mắc lỗi ở những vị trí mà con người ít khi nhầm lẫn và ngược lại.
Hành động chuỗi (Sequential click patterns): Thứ tự và tốc độ click chuột của AI thường quá đều đặn hoặc tuân theo một thuật toán nhất định, thiếu tính ngẫu nhiên của con người.
Hành vi chọn quá mức (Overselection behavior): AI có xu hướng chọn nhiều điểm hơn cần thiết hoặc xử lý thông tin khác biệt so với trực giác của con người.

Nói cách khác, AI có thể giải quyết CAPTCHA, nhưng chúng không giải quyết nó như một con người.

CogCAPTCHA30

CogCAPTCHA30 và Kiểm tra Turing theo Quy trình

Dựa trên phát hiện này, các nhà nghiên cứu đã phát triển CogCAPTCHA30 — một bộ công cụ gồm 30 nhiệm vụ kết hợp giữa CAPTCHA truyền thống và các bài kiểm tra tâm lý học nhận thức kinh điển. Đây được coi là bước tiến hóa tiếp theo của bài kiểm tra Turing.

Trong khi bài kiểm tra Turing gốc chỉ quan tâm đến việc máy móc có thể tạo ra kết quả không thể phân biệt với con người hay không (dựa trên đầu ra), thì Kiểm tra Turing theo Quy trình (Process Turing Test) đi sâu hơn vào việc máy móc thực hiện nhiệm vụ đó như thế nào. Kết quả cho thấy sự tương đương về đầu ra và sự tương đương về quy trình là hai yếu tố hoàn toàn không liên quan đến nhau. Một AI có thể trả lời đúng câu hỏi nhưng lại để lộ bản chất máy móc thông qua cách di chuột hay thời gian phản hồi.

Các mô hình AI tiên phong chưa chắc giống con người nhất

Một phát hiện đáng ngạc nhiên từ nghiên cứu là các mô hình AI tiên phong nhất hiện nay (frontier models) như GPT của OpenAI, Claude của Anthropic hay Gemini của Google thực tế lại ít giống con người hơn trong các đặc điểm quy trình so với các mô hình nhỏ hơn.

Nghiên cứu so sánh các mô hình lớn nói trên với Qwen (mô hình mã nguồn mở 1,5B tham số) và Centaur (mô hình mô phỏng nhận thức con người 70B tham số). Kết quả cho thấy:

Các mô hình lớn (Claude, GPT, Gemini) có khoảng cách xa hơn với không gian đặc điểm nhận thức của con người.
Mô hình nhỏ hơn như Qwen và đặc biệt là Centaur lại hoạt động tương đồng hơn với con người.

Centaur, được tinh chỉnh trên hơn 10 triệu lựa chọn của con người từ 160 thí nghiệm nhận thức, đã vượt trội hơn các mô hình khác trong việc mô phỏng quy trình tư duy của người dùng. Điều này củng cố luận điểm rằng: tiến bộ về khả năng của AI không đồng nghĩa với việc chúng trở nên giống con người hơn.

Kết quả mô hình

Tính bền vững trước sự tấn công của AI

Tất nhiên, câu hỏi đặt ra là liệu các tác nhân AI có thể "lách luật" bằng cách học cách mô phỏng quy trình của con người hay không. Các nhà nghiên cứu đã thực hiện thử nghiệm bằng cách tinh chỉnh (fine-tune) mô hình Qwen2.5 để đưa nó lại gần hơn với hành vi con người.

Kết quả cho thấy:

Khi AI được cung cấp đầy đủ thông tin về các đặc điểm đang được đo lường và hàm mục tiêu của bộ phát hiện, khoảng cách giữa người và máy sẽ biến mất.
Tuy nhiên, khoảng cách này sẽ tái xuất hiện khi một phần không gian đặc điểm bị che giấu.
Quan trọng nhất, khi AI phải tổng quát hóa qua các nhiệm vụ khác nhau (cross-task generalization), khoảng cách giữa người và máy trở lại hoàn toàn.

Điều này có nghĩa là Kiểm tra Turing theo Quy trình có độ bền cao miễn là AI không biết trước chính xác cách chúng đang được đánh giá. Việc mô phỏng toàn bộ tâm lý học nhận thức của con người là một nhiệm vụ khó khăn theo cấp số nhân so với việc chỉ giải quyết một bài toán CAPTCHA đơn lẻ.

So với các phương pháp xác thực một lần như mật khẩu hay dấu vân thiết bị, việc phân tích quy trình nhận thức mang lại một bước nhảy vọt trong việc xác minh danh tính con người trên mạng internet, giúp xây dựng một hệ thống xác thực "vô hình" nhưng hiệu quả hơn trước sự xâm nhập của các bot thông minh.

CAPTCHA vẫn phát hiện được AI nhờ phân tích quy trình tư duy thay vì chỉ dựa vào kết quả

Khoảng cách giữa đầu ra và quy trình

CogCAPTCHA30 và Kiểm tra Turing theo Quy trình

Các mô hình AI tiên phong chưa chắc giống con người nhất

Tính bền vững trước sự tấn công của AI

Bài viết liên quan