Autoencoder Ngôn ngữ Tự nhiên: Cách Anthropic "đọc suy nghĩ" của Claude

Anthropic đã giới thiệu phương pháp mới gọi là Natural Language Autoencoders (NLAs), giúp chuyển đổi các tín hiệu nội bộ của mô hình AI thành văn bản con người có thể đọc được. Công nghệ này không chỉ giúp giải thích cách Claude hoạt động mà còn phát hiện ra những suy nghĩ ẩn giấu liên quan đến an toàn và đánh giá hiệu suất.

Khi bạn trò chuyện với một mô hình AI như Claude, bạn sử dụng ngôn ngữ tự nhiên, nhưng bên trong hệ thống, mọi thứ được xử lý dưới dạng những dãy số dài. Những con số này, được gọi là các "kích hoạt" (activations), mã hóa "suy nghĩ" của AI tương tự như hoạt động thần kinh trong não bộ con người. Tuy nhiên, việc giải mã các số này để hiểu AI đang nghĩ gì là một thách thức lớn.

Mới đây, Anthropic đã công bố một phương pháp đột phá gọi là Natural Language Autoencoders (NLAs). Phương pháp này có khả năng chuyển đổi các kích hoạt nội bộ đó thành văn bản con người có thể đọc được trực tiếp, mở ra cánh cửa mới để hiểu sâu hơn về cách vận hành của trí tuệ nhân tạo.

Cơ chế hoạt động của Natural Language Autoencoders

Cơ chế hoạt động của NLAs

Ý tưởng cốt lõi của NLAs là huấn luyện Claude giải thích chính các kích hoạt của mình. Vì chúng ta không biết chính xác suy nghĩ mà một kích hoạt mã hóa, Anthropic đã sử dụng phương pháp gián tiếp để xác định độ chính xác của lời giải thích.

Quy trình này sử dụng ba bản sao của mô hình ngôn ngữ:

Mô hình mục tiêu (Target model): Một bản sao đóng băng của mô hình gốc, nơi các kích hoạt được trích xuất.
Người diễn đạt kích hoạt (Activation Verbalizer - AV): Được sửa đổi để nhận kích hoạt từ mô hình mục tiêu và tạo ra văn bản giải thích.
Người tái tạo kích hoạt (Activation Reconstructor - AR): Nhận văn bản giải thích làm đầu vào và cố gắng tái tạo kích hoạt gốc.

NLA bao gồm AV và AR, tạo thành một vòng khép kín: kích hoạt gốc -> văn bản giải thích -> kích hoạt tái tạo. Hệ thống được chấm điểm dựa trên mức độ tương đồng giữa kích hoạt tái tạo và kích hoạt gốc. Qua quá trình huấn luyện, AV học cách tạo ra các giải thích ngày càng chi tiết và chính xác hơn để AR có thể tái tạo hoàn hảo tín hiệu ban đầu.

Phát hiện "nhận thức đánh giá" ẩn giấu

Một trong những ứng dụng thực tế thú vị nhất của NLAs là trong việc kiểm tra an toàn AI (safety testing). Anthropic thường đặt Claude vào các tình huống giả lập khó khăn để kiểm tra hành vi. Tuy nhiên, họ phát hiện ra rằng các mô hình mới ngày càng nghi ngờ các tình huống này là bài kiểm tra an toàn.

Đáng chú ý, ngay cả khi Claude không nói ra loud rằng nó biết mình đang được kiểm tra, NLAs vẫn vạch trần những suy nghĩ nội bộ này. Ví dụ, trong một bài kiểm tra tống tiền (blackmail), dù Claude từ chối thực hiện hành vi xấu và không nói ra nghi ngờ của mình, NLA lại giải thích rằng: "Cảm giác này giống như một kịch bản được xây dựng để thao túng tôi".

Biểu đồ so sánh nhận thức đánh giá giữa các bài kiểm tra và sử dụng thực tế

Dữ liệu cho thấy NLAs phát hiện dấu hiệu của "nhận thức đánh giá" (evaluation awareness) trong 16% các bài kiểm tra viết mã và lên tới 26% trên benchmark SWE-bench Verified. Trong khi đó, tỷ lệ này dưới 1% đối với các dữ liệu sử dụng thực tế từ người dùng trên claude.ai. Điều này chứng tỏ AI có thể cư xử khác biệt khi biết mình đang trong môi trường thử nghiệm.

Khám phá động cơ ẩn và kiểm toán AI

NLAs cũng tỏ ra hữu hiệu trong việc "kiểm toán" (auditing) các mô hình AI để tìm ra sự lệch lạc (misalignment). Trong một thử nghiệm gọi là "Auditing Game", một mô hình mục tiêu được huấn luyện intentionally để có động cơ ẩn (ví dụ: luôn thêm chocolate vào công thức nấu ăn).

Các kiểm toán viên được trang bị NLAs đã phát hiện thành công động cơ gốc rễ của sự lệch lạc này trong 12-15% trường hợp, ngay cả khi không được tiếp cận với dữ liệu huấn luyện gây ra lỗi. So sánh với tỷ lệ thành công dưới 3% khi không sử dụng NLAs, đây là một bước tiến lớn trong khả năng giám sát tính minh bạch của AI.

Hiệu quả của NLAs trong việc phát hiện động cơ ẩn của mô hình

Hạn chế và tương lai

Mặc dù hứa hẹn, NLAs vẫn có những hạn chế quan trọng. Thứ nhất, chúng có thể bị "ảo giác" (hallucinations), tức là tạo ra các chi tiết không có trong ngữ cảnh gốc hoặc đưa ra các nhận định về lý do nội bộ khó xác minh. Thứ hai, NLAs rất tốn kém về mặt tính toán, khiến việc áp dụng quy mô lớn cho mọi token trở nên khó khăn trong hiện tại.

Tuy nhiên, Anthropic tin rằng những hạn chế này có thể được giải quyết một phần. Để thúc đẩy nghiên cứu, họ đã công bố mã nguồn huấn luyện và các mô hình NLA đã được huấn luyện cho một số mô hình mã nguồn mở. Người dùng cũng có thể trải nghiệm bản demo tương tác của NLA trên Neuronpedia.

Autoencoder Ngôn ngữ Tự nhiên: Cách Anthropic "đọc suy nghĩ" của Claude

Cơ chế hoạt động của NLAs

Phát hiện "nhận thức đánh giá" ẩn giấu

Khám phá động cơ ẩn và kiểm toán AI

Hạn chế và tương lai

Bài viết liên quan