SOB: Tiêu chuẩn đo lường mới đánh giá khả năng xuất dữ liệu có cấu trúc của các mô hình LLM

29 tháng 4, 2026·4 phút đọc

Structured Output Benchmark (SOB) là tiêu chuẩn mới được thiết kế để đánh giá chính xác khả năng trích xuất dữ liệu của LLM, không chỉ kiểm tra cấu trúc JSON mà còn cả độ chính xác của giá trị. Kết quả cho thấy nhiều mô hình có tỷ lệ hợp lệ cao về mặt lược đồ nhưng lại mắc lỗi "ảo giác có cấu trúc" về giá trị thực tế.

SOB: Tiêu chuẩn đo lường mới đánh giá khả năng xuất dữ liệu có cấu trúc của các mô hình LLM

Các mô hình ngôn ngữ lớn (LLM) ngày càng được triển khai rộng rãi để chuyển đổi dữ liệu phi cấu trúc thành dữ liệu có cấu trúc, chẳng hạn như phân tích hóa đơn, hồ sơ y tế, biên bản cuộc họp và chuyển đổi PDF thành các dòng trong cơ sở dữ liệu. Trong các quy trình xác định (deterministic workflows), bước tiếp theo thường mong đợi một khóa cụ thể với kiểu dữ liệu cụ thể. Một giá trị invoice_total bị ảo giác hoặc một mảng bị sắp xếp sai do ngày tháng không chính xác có thể âm thầm làm hỏng các hệ thống hạ lưu.

Tuy nhiên, các tiêu chuẩn đánh giá hiện tại thường chỉ kiểm tra việc tuân thủ lược đồ (schema compliance) mà bỏ qua việc đánh giá tính chính xác của giá trị thực tế bên trong JSON. Để giải quyết vấn đề này, Structured Output Benchmark (SOB) đã được ra mắt với mục tiêu đo lường cả tỷ lệ thông qua lược đồ JSON, kiểu dữ liệu và độ chính xác của giá trị trên ba hình thức: văn bản, hình ảnh và âm thanh.

Quy trình đánh giá SOBQuy trình đánh giá SOB

Đánh giá toàn diện hơn

SOB sử dụng cùng một hệ thống chấm điểm để đánh giá đầu ra có cấu trúc trên nhiều phương thức khác nhau. Mục tiêu là tách biệt khả năng trích xuất dữ liệu khỏi các khả năng khác của mô hình. Mỗi bản ghi trong bộ kiểm thử đều được ghép nối với một JSON Schema và một câu trả lời "ground-truth" (giá trị thực) được xác minh bởi con người và kiểm tra chéo bởi LLM. Điều này đảm bảo rằng bất kỳ giá trị nào bị thiếu hoặc ảo giác đều được coi là sai hoàn toàn.

Để tách biệt khả năng trích xuất dữ liệu có cấu trúc khỏi chất lượng thị giác hoặc nhận dạng giọng nói (ASR), các bản ghi hình ảnh và âm thanh được chuyển đổi thành ngữ cảnh văn bản chuẩn hóa trước khi chấm điểm. Điều này giúp đảm bảo sự khác biệt trong điểm số phản ánh chính xác cách mô hình xử lý lược đồ, lồng ghép và neo giá trị dưới các phân phối nội dung khác nhau.

Khoảng cách giữa cấu trúc và giá trị

SOB báo cáo 7 chỉ số cho mỗi bản ghi, nhưng chỉ số quan trọng nhất đối với các hệ thống sản xuất là Value Accuracy (Độ chính xác của giá trị). Đây là tỷ lệ các trường mà hệ thống hạ lưu có thể tin tưởng mà không cần bước xem xét của con người.

Kết quả đánh giá cho thấy một thực tế đáng báo động: hầu hết các mô hình hiện đại đều đạt trên 95% trong việc vượt qua kiểm tra JSON (JSON Pass), nhưng Độ chính xác của giá trị lại thấp hơn từ 15 đến 30 điểm. Khoảng cách này là nơi mà các tiêu chuẩn đánh giá trước đây đã "đánh lừa" chúng ta.

Ví dụ, mô hình Qwen3.5-35B có khoảng cách hẹp nhất (16.8 điểm) và Độ chính xác giá trị cao nhất, trong khi một số mô hình khác đạt 98.7% tỷ lệ JSON Pass nhưng lại rớt xuống 73.1% về Độ chính xác giá trị.

Kết quả đa dạng theo từng phương thức

Không có một mô hình nào chiến thắng tất cả các hạng mục. Xếp hạng thay đổi đáng kể tùy thuộc vào loại dữ liệu đầu vào:

  • Văn bản: GLM-4-7 dẫn đầu.
  • Hình ảnh: Gemma-4-31B đứng đầu.
  • Âm thanh: Gemini-2.5-Flash dẫn đầu.

Đáng chú ý, GPT-5.4 chỉ xếp thứ 3 về văn bản nhưng lại rớt xuống thứ 9 về hình ảnh. Điều này cho thấy kích thước mô hình không phải lúc nào cũng là yếu tố dự báo chính xác. Các mô hình nhỏ hơn như Phi-4 (14B) đã đánh bại GPT-5 và GPT-5-mini trong các tác vụ văn bản.

Âm thanh là phương thức khó nhất. Các bản ghi âm thường dài (trung bình ~7.300 token) và có nhiều người nói chồng lấn, khiến các mô hình gặp khó khăn trong việc trích xuất đúng giá trị.

Thách thức về "Ảo giác có cấu trúc"

Một trong những lỗi khó phát hiện nhất là "ảo giác có cấu trúc" (structured hallucinations). Đây là khi các giá trị đúng về kiểu dữ liệu, hợp lệ về lược đồ và có vẻ hợp lý, nên chúng lọt qua hầu hết các hàng rào an toàn. Ví dụ, trong một bản ghi âm, giá trị thực là "target_market_age": "15 đến 35 tuổi", nhưng mô hình lại trả về "25 đến 35". Nếu không có kiểm tra ở cấp độ trường, lỗi này vô hình đối với các hệ thống tự động.

Mục tiêu của SOB là thúc đẩy sự phát triển của các mô hình tốt nhất cho các tác vụ xác định, nơi tính nhất quán và có thể kiểm soát của cấu trúc đầu ra là yếu tố then chốt. Bước đầu tiên để cải thiện đầu ra có cấu trúc là đo lường nó một cách chính xác và so sánh với những tiêu chuẩn tốt nhất.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗