Google giới thiệu "faithful uncertainty": Giải pháp giúp LLM giảm ảo giác bằng cách đưa ra phỏng đoán tốt nhất

Các nhà nghiên cứu Google đề xuất kỹ thuật "faithful uncertainty" giúp LLM nhận thức được sự không chắc chắn của chính mình. Thay vì từ chối trả lời hoặc bịa đặt, mô hình có thể đưa ra các giả thuyết thận trọng. Điều này giúp cân bằng giữa độ chính xác và tính hữu ích trong các ứng dụng AI thực tế.

Các mô hình ngôn ngữ lớn (LLM) tiếp tục gặp khó khăn với vấn đề ảo giác (hallucinations), tạo ra rào cản lớn cho các ứng dụng doanh nghiệp trong thế giới thực. Việc giảm thiểu các lỗi này là một quá trình phức tạp, buộc các nhà phát triển mô hình phải đối mặt với sự đánh đổi nghiêm ngặt: loại bỏ lỗi sai lệch thường đồng nghĩa với việc triệt tiêu cả những câu trả lời đúng.

Trong một bài báo mới, các nhà nghiên cứu Google đã giới thiệu khái niệm "faithful uncertainty" (sự không chắc chắn trung thực), một kỹ thuật siêu nhận thức (metacognitive) nhằm đồng bộ hóa phản hồi của mô hình với mức độ tự tin nội bộ của nó. Sự đồng bộ này cho phép mô hình đưa ra các giả thuyết được bảo vệ một cách phù hợp, chẳng hạn như "Phỏng đoán tốt nhất của tôi là...", thay vì mặc định vào lựa chọn nhị phân "trả lời hoặc từ chối" vô ích.

Trong các ứng dụng AI tác nhân (agentic AI) thực tế, nhận thức siêu nhận thức này đóng vai trò như một lớp kiểm soát thiết yếu. Nó trao quyền cho các hệ thống tự chủ khả năng xác định chính xác khi nào kiến thức nội bộ của chúng là đủ và khi nào chúng cần kích hoạt động các công cụ bên ngoài hoặc API tìm kiếm để khắc phục sự thiếu hụt thông tin.

"Thuế tính hữu ích" của các chiến lược giảm thiểu hiện tại

Việc hiểu tại sao LLM bị ảo giác phụ thuộc vào việc tách biệt hai khả năng: mô hình biết các sự kiện và mô hình biết những gì mình đã biết. Về mặt lịch sử, hầu hết sự cải thiện về tính đúng đắn trong AI đều đến từ việc mở rộng ranh giới kiến thức, nghĩa là các nhà phát triển đơn giản là nhồi nhét nhiều sự kiện hơn vào các tham số của mô hình thông qua quy mô lớn hơn và dữ liệu huấn luyện nhiều hơn.

Tuy nhiên, việc mở rộng kiến thức của một mô hình không tự động cải thiện nhận thức về ranh giới, hay khả năng phân biệt giữa cái đã biết và cái chưa biết cũng như nhận ra những hạn chế của chính nó.

"Có hai cách rộng rãi để cải thiện tính đúng đắn của LLM," Gal Yona, Nhà khoa học nghiên cứu tại Google và đồng tác giả của bài báo, chia sẻ với VentureBeat. Cách đầu tiên là tiếp tục dạy mô hình nhiều sự kiện hơn. Nhưng Yona lưu ý rằng "dung lượng mô hình là hữu hạn, trong khi đuôi dài của kiến thức thì vô cùng vô tận."

Khi các mô hình đạt đến giới hạn này, kỳ vọng là chúng sẽ biết những gì mình không biết và đơn giản là từ chối trả lời. Tuy nhiên, điều này vốn dĩ rất khó khăn đối với LLM.

"Đây là lý do khiến hầu hết các nỗ lực thực tế nhằm giảm ảo giác thông qua các can thiệp khác nhau không thực sự được triển khai," Yona giải thích. "Chúng làm giảm ảo giác, nhưng cũng làm tổn hại đến tính hữu ích, bởi vì mô hình cuối cùng lại từ chối trả lời những câu hỏi mà nó thực sự biết."

Khả năng không thể phân biệt giữa cái đã biết và chưa biết tạo ra những gì các tác giả bài báo gọi là "utility tax" (thuế tính hữu ích). Thiết lập tiêu chuẩn không ảo giác buộc mô hình phải từ chối bất cứ khi nào nó hơi không chắc chắn, loại bỏ một lượng lớn thông tin hoàn toàn hợp lệ. Ví dụ, các tác giả chứng minh rằng việc giảm tỷ lệ lỗi cơ bản 25% xuống mục tiêu nghiêm ngặt 5% buộc các nhà phát triển phải loại bỏ 52% câu trả lời đúng của mô hình.

Coi mọi lỗi là ảo giác buộc các hệ thống doanh nghiệp phải chọn giữa độ tin cậy và tính hữu ích. Các nhà phát triển ứng dụng thường không sẵn sàng trả loại thuế hữu ích khổng lồ này và làm cho mô hình của họ trở nên vô dụng. Hậu quả là họ tối ưu hóa hệ thống để ưu tiên phạm vi bao phủ, buộc các mô hình phải hoạt động trong trạng thái tiếp tục tạo ra các ảo giác tự tin.

Định nghĩa lại ảo giác là những lỗi tự tin

Để vượt qua "thuế tính hữu ích", các nhà nghiên cứu đề xuất ngừng coi mọi lỗi sai lệch là ảo giác. Thay vào đó, họ định nghĩa lại ảo giác là "confident errors" (những lỗi tự tin): thông tin sai lệch được đưa ra một cách đầy quyền hạn mà không có sự bảo chứng phù hợp.

Sự định nghĩa lại tinh tế này giải thể sự phân chia nhị phân "trả lời hoặc từ chối" nghiêm ngặt và cho phép mô hình thể hiện sự không chắc chắn của mình.

Trong khuôn khổ mới này, nếu một mô hình mắc lỗi sai lệch về mặt sự thật nhưng bảo vệ phản hồi một cách phù hợp (ví dụ: bằng cách nói "Tôi không hoàn toàn chắc chắn, nhưng tôi nghĩ..."), thì đó không phải là ảo giác. Đó đơn giản là một giả thuyết được đưa ra cho người dùng cân nhắc. Bằng cách thể hiện sự không chắc chắn, AI bảo toàn tính hữu ích của mình—chia sẻ bất kỳ kiến thức một phần hoặc có khả năng đúng nào mà nó có—mà không làm xói mòn niềm tin của người dùng.

Tuy nhiên, nếu một trợ lý AI bảo vệ mọi phản hồi bằng một tuyên bố từ chối trách nhiệm, người dùng sẽ buộc phải kiểm tra lại mọi thứ, làm mất đi mục đích của công cụ.

Giải pháp mà các nhà nghiên cứu đề xuất là "faithful uncertainty". Cách tiếp cận này yêu cầu sự đồng bộ hóa giữa sự không chắc chắn về ngôn ngữ của mô hình (những từ nó dùng để thể hiện sự nghi ngờ) và sự không chắc chắn nội tại (mức độ tự tin thống kê nội bộ thực tế của nó đối với câu trả lời cụ thể đó). Điều này đảm bảo mô hình chỉ đưa ra các lời bảo vệ khi trạng thái nội bộ của nó thực sự phản ánh thông tin mâu thuẫn hoặc có xác suất thấp.

Sự không chắc chắn trung thực tạo thành một thành phần cốt lõi của "siêu nhận thức", khả năng của AI trong việc nhận thức sự không chắc chắn của chính mình và hành động dựa trên nó. Để hiểu điều này một cách thực tế, hãy xem xét ví dụ trực quan khi tham khảo ý kiến bác sĩ. Chúng ta tin tưởng bác sĩ không phải vì họ biết tất cả mọi thứ. Chúng ta tin tưởng họ vì họ phân biệt đáng tin cậy giữa chẩn đoán tự tin ("Bạn bị gãy xương") và một giả thuyết có căn cứ ("Có thể là bong gân, nhưng hãy chụp X-quang").

Tác động thực tế đối với AI doanh nghiệp

Dưới định nghĩa mới, các lỗi mà mô hình thực sự tự tin nhưng sai về mặt sự thật được phân loại là "sai lầm trung thực". Điều này coi việc mở rộng kiến thức (huấn luyện mô hình trên nhiều dữ liệu hơn) và sự không chắc chắn trung thực là những nỗ lực bổ sung hoàn toàn cho nhau. Việc mở rộng kiến thức đẩy ranh giới kiến thức tuyệt đối ra ngoài để giảm thiểu các sai lầm trung thực, trong khi sự không chắc chắn trung thực truyền đạt trung thực ranh giới đó hiện đang nằm ở đâu.

Khuôn khổ mới này có những tác động quan trọng đối với các ứng dụng tác nhân. Sự chuyển dịch sang AI tác nhân có thể khiến việc biết những gì mô hình không biết trở nên thừa thãi, vì các mô hình chỉ có thể tìm kiếm trong cơ sở dữ liệu bên ngoài. Tuy nhiên, quyền truy cập vào các công cụ bên ngoài thực sự làm tăng nhu cầu về sự không chắc chắn trung thực. Trong các hệ thống tác nhân, siêu nhận thức trở thành lớp kiểm soát trung tâm điều chỉnh toàn bộ hệ thống.

Các công cụ bên ngoài giải quyết vấn đề lưu trữ vì mô hình không còn cần mã hóa mọi sự kiện vào các tham số của nó. Tuy nhiên, điều này giới thiệu một vấn đề kiểm soát mới: quản lý khi nào để truy xuất thông tin, xác minh sự thật và điều phối các công cụ bên ngoài này. Nếu không có sự không chắc chắn trung thực, một tác nhân cơ bản đang "bay mù" và phải dựa vào các heuristic tĩnh hoặc giàn giáo quá mức (over-engineered scaffolds).

"Mô hình có thể tìm kiếm một thứ mà nó đã biết một cách tự tin—lãng phí độ trễ và chi phí mà không thu được lợi ích gì. Hoặc ngược lại: nó tự tin trả lời từ bộ nhớ khi lẽ ra nó nên tìm kiếm, tạo ra kết quả có vẻ hợp lý nhưng sai lệch," Yona nói. Các hệ thống tác nhân ngày nay cố gắng giải quyết vấn đề này từ bên ngoài bằng các bộ phân loại truy vấn hoặc quy tắc luôn tìm kiếm, nhưng Yona lưu ý rằng những thứ này là "tĩnh và mong manh". Bằng cách sử dụng sự không chắc chắn nội tại để điều chỉnh hành vi của chính nó, tác nhân tối ưu hóa việc sử dụng công cụ một cách linh hoạt, chọn kích hoạt công cụ tìm kiếm chỉ khi sự tự tin nội bộ thực sự thấp.

Ngoài việc quyết định khi nào tìm kiếm, sự không chắc chắn trung thực rất quan trọng để đánh giá kết quả của một tìm kiếm. Nếu một công cụ trả về thông tin chất lượng thấp hoặc bất ngờ, một tác nhân siêu nhận thức không chấp nhận mù quáng bất cứ thứ gì xuất hiện trong cửa sổ ngữ cảnh của nó. Thay vào đó, nó sử dụng nhận thức về sự không chắc chắn để cân nhắc các tín hiệu bên ngoài đã truy xuất so với các tiên đề nội tại của chính nó. Điều này ngăn chặn hành vi xu nịnh (sycophantic behavior), nơi hệ thống có thể tin tưởng các nguồn bên ngoài mâu thuẫn với kiến thức thực tế đã biết của nó.

Nghịch lý bootstrap: Bài toán trong việc dạy sự không chắc chắn

Đối với các nhà xây dựng doanh nghiệp, việc đạt được sự không chắc chắn trung thực này khó khăn hơn âm thanh của nó. Nó đòi hỏi phải dạy các mô hình cú pháp của sự không chắc chắn thông qua tinh chỉnh có giám sát (SFT). Vì các mô hình được huấn luyện trước chủ yếu được cung cấp văn bản đầy quyền hạn, chúng phải được dạy rõ ràng để nói những điều như, "Tôi không hoàn toàn chắc chắn, nhưng tôi nghĩ VentureBeat được thành lập vào..."

Nhưng SFT giới thiệu một "nghịch lý bootstrap". Khác với các tập dữ liệu huấn luyện tiêu chuẩn nơi "câu trả lời đúng" là như nhau bất kể mô hình, sự thật cơ bản (ground truth) của sự không chắc chắn là cơ sở kiến thức động của chính mô hình đó.

"Đây là vấn đề: 'biểu hiện' đúng đắn của sự không chắc chắn vốn dĩ là động, vì nó phụ thuộc vào mô hình cụ thể này biết hoặc không biết gì tại thời điểm cụ thể này của quá trình huấn luyện," Yona nói. "Nếu bạn huấn luyện trên một nhãn nói 'Tôi không biết X' nhưng mô hình thực sự biết X, bạn đã dạy nó ảo giác về sự không chắc chắn... Dữ liệu huấn luyện là tĩnh, nhưng mục tiêu là một mục tiêu di chuyển, và đó là sự căng thẳng cơ bản mà các nhóm cần phải giải quyết."

Con đường dẫn tới AI tự nhận thức

Đối với các doanh nghiệp muốn triển khai các khả năng này mà không cần huấn luyện lại tốn kém, việc thiết lập câu lệnh (prompting) đóng vai trò là điểm nhập dễ tiếp cận nhất. "Kỹ thuật prompt engineering là điều mà hầu hết các kỹ sư đã làm ngày nay, điều này cung cấp con đường ma sát thấp nhất để cải thiện hành vi siêu nhận thức ngay hôm nay," Yona nói. Các nhà phát triển doanh nghiệp có thể khám phá các khung như MetaFaith, một dự án mã nguồn mở trước đây được đồng tác giả bởi Yona, để bắt đầu áp dụng prompting siêu nhận thức cho các mô hình có sẵn (off-the-shelf).

Tuy nhiên, Yona cảnh báo rằng "vẫn còn nhiều dư địa đáng kể mà việc prompting một mình không giải quyết được," có nghĩa là ngành công nghiệp cuối cùng sẽ cần dựa vào học tăng cường (RL) tiên tiến để tích hợp sâu sắc siêu nhận thức vào quá trình huấn luyện mô hình.

Cuối cùng, khi các doanh nghiệp chuyển đổi từ các ứng dụng trò chuyện biệt lập sang quy trình làm việc đa tác nhân phức tạp, sự tự nhận thức sẽ trở thành điều kiện tiên quyết quyết định cho tính tự chủ đáng tin cậy. Nhưng việc đánh giá xem một mô hình thực sự sở hữu nhận thức này hay không vẫn là một thách thức kỹ thuật sâu sắc.

"Làm thế nào bạn thực sự đánh giá xem một mô hình có thể cảm nhận được trạng thái nội bộ của chính mình không?" Yona hỏi. "Ngay cả ở con người, cũng rất khó để định nghĩa hoặc tách biệt các khả năng 'tự giám sát' thực sự khỏi sự phụ thuộc có năng lực vào các đại diện. Chúng ta đối mặt với chính xác những thách thức tương tự với LLM: một mô hình có thể học cách bắt chước phong cách của sự không chắc chắn mà không thực sự cảm nhận được trạng thái nội bộ của nó. Phát triển các khung đánh giá có thể nói lên sự khác biệt là một trong những vấn đề mở quan trọng nhất trong lĩnh vực này."