Thử nghiệm Super-resolution trong nhận diện biển số: Tại sao phương pháp này thất bại?

WINK Engineering đã kiểm tra việc sử dụng siêu phân giải (super-resolution) để nâng cấp hình ảnh mờ trước khi đưa vào mô hình OCR nhận diện biển số. Kết quả thực tế cho thấy kỹ thuật này không cải thiện độ chính xác mà còn tạo ra các chi tiết ảo, khẳng định rằng việc huấn luyện mô hình trực tiếp trên dữ liệu đa quy mô và sử dụng cơ chế bỏ phiếu đa khung hình mới là giải pháp tối ưu.

Nếu bạn đang xây dựng một hệ thống nhận diện biển số xe (LPR - License Plate Recognition) tùy chỉnh vào năm 2026, khả năng cao bạn đã bắt gặp khái niệm siêu phân giải (Super-resolution hay SR). Lời quảng cáo cho kỹ thuật này xuất hiện khắp nơi: lấy một vùng cắt hình ảnh mờ chỉ có 50 pixel, nâng cấp lên thành hình ảnh sắc nét 200 pixel, sau đó đưa vào mô hình OCR. Các bài báo khoa học hiển thị những hình ảnh trước và sau đầy ấn tượng. ICPR 2026 thậm chí đã dành một cuộc thi toàn diện cho nó. Nó nghe giống như một cách dễ dàng để tăng độ chính xác.

Tại WINK Engineering, chúng tôi đã xây dựng một mô hình như vậy, kiểm tra trên các vùng cắt hình ảnh thực tế từ sản xuất, và phát hiện ra rằng nó hoàn toàn không có tác dụng. Sau đó, chúng tôi tải xuống một mô hình được huấn luyện trước có kích thước lớn gấp 30 lần để kiểm tra tiếp. Kết quả vẫn y hệt.

Bài ghi chú này đặt ra một câu hỏi mà các tài liệu nghiên cứu về SR hiếm khi đề cập đến: Nếu bạn có thể huấn luyện mô hình OCR của mình trên dữ liệu độ phân giải thấp, tại sao bạn lại cần một mô hình riêng biệt để nâng cấp nó trước?

Sự sụp đổ của bộ lọc tiền xử lý

Trong những ngày đầu của ALPR (nhận diện biển số tự động), tiền xử lý hình ảnh là một thực hành tiêu chuẩn: cân bằng biểu đồ histogram, làm sắc nét Gaussian, nhị phân hóa, các phép toán hình thái học. Các bộ lọc này cải thiện khả năng đọc trên các thiết lập camera cụ thể nhưng rất dễ vỡ. Chỉ cần thay đổi ánh sáng, đổi camera, hoặc thêm định dạng biển số mới, toàn bộ hệ thống sẽ sụp đổ.

Học sâu (Deep learning) đã giết chết bộ lọc tiền xử lý truyền thống. Các mô hình đầu cuối (end-to-end) hứa hẹn xử lý mọi thứ: đưa mạng nơ-ron một vùng cắt thô, để nó tự figuring ra phần còn lại. Và nó đã hoạt động, cho đến khi không còn nữa.

Vấn đề nằm ở độ phân giải. Một mô hình OCR được huấn luyện trên biển số rộng 200 pixel hoạt động tuyệt vời với biển số 200 pixel. Nhưng nếu đưa vào một vùng cắt 50 pixel từ một chiếc xe ở xa, độ chính xác sẽ sụp đổ. Không phải vì mô hình không thể đọc, mà vì không có gì để đọc; các ký tự chỉ rộng 4 hoặc 5 pixel. Không có lượng dung lượng mô hình nào có thể tạo ra chi tiết không có trong đầu vào.

Siêu phân giải nơ-ron tuyên bố thay đổi phương trình này. Thay vì yêu cầu mô hình OCR đọc các ký tự 4 pixel, bạn đưa cho nó các ký tự 16 pixel. Mô hình SR tạo ra các chi tiết có lý từ các prior đã học về cách các ký tự biển số trông như thế nào ở độ phân giải cao. Lời hứa nghe rất tuyệt. Trong thực tế, những gì bạn thực sự nhận được là các ký tự ảo (hallucinated) trông có thật nhưng thực chất không phải vậy.

Thử nghiệm thực tế: SR không hoạt động

Bộ dữ liệu của chúng tôi chứa hơn 18.000 phát hiện đã gắn nhãn với hơn 180.000 vùng cắt hình ảnh riêng lẻ. Trong số đó, 5.000 vùng cắt dưới 100px chiều rộng có cả phiên bản gốc và phiên bản đã nâng cấp SR để so sánh A/B; chúng tôi chạy cả hai phiên bản qua cùng một pipeline OCR:

Cùng một mô hình OCR (CTC-CRNN, độ chính xác cơ sở 98,6%).
Cùng các vùng cắt.
Cùng các nhãn.
Biến duy nhất là bước tiền xử lý SR.

Để loại bỏ dung lượng mô hình như một biến số, chúng tôi đã kiểm tra ba pipeline trên 2.000 vùng cắt được gắn nhãn dưới 100px. Kết quả? Ba pipeline. Ba kích thước mô hình. Cùng một câu trả lời sai. Các mô hình SR không nâng cao ký tự; chúng đang ảo giác ra những ký tự mới tình cờ trông có vẻ hợp lý. Điều đó tệ hơn là không làm gì cả vì nó làm ô nhiễm nhóm bỏ phiếu với những "rác thải" đầy tự tin.

Tại sao hệ thống vẫn hoạt động tốt?

Vậy làm thế nào hệ thống đạt được độ chính xác 98,6% đối với biển số? Đó là nhờ cơ chế bỏ phiếu đa vùng cắt (multi-crop voting). Mỗi phương tiện tạo ra 15 đến 20 vùng cắt khi nó đi qua trường nhìn của camera. Các vùng cắt gần, lớn (100 đến 200px) được đọc đúng. Các vùng cắt nhỏ, xa (40 đến 80px) chỉ là nhiễu. Pipeline bỏ phiếu tổng hợp across tất cả chúng và các kết quả đọc đúng từ các vùng cắt lớn sẽ lấn át những thứ rác rưởi từ các vùng cắt nhỏ. Việc áp dụng SR cho các vùng cắt nhỏ không thay đổi kết quả; chúng đã bị bỏ phiếu loại bỏ rồi.

Kết quả tiêu cực của chúng tôi nhất quán với nghiên cứu đã xuất bản. Trong cuộc thi ICPR 2026 về Nhận diện Biển số Độ phân giải Thấp, đội xếp thứ 3 (OpenOCR, Đại học Fudan) hoàn toàn không sử dụng giai đoạn SR chuyên dụng nào. Họ đưa các khung hình độ phân giải thấp trực tiếp vào mô hình OCR với bỏ phiếu cấp ký tự trên nhiều khung hình và chỉ kém đội thắng về 2 điểm phần trăm.

Giải pháp đúng đắn: Dữ liệu huấn luyện, không phải SR

Đây là điều mà hầu hết các bài báo về SR không đề cập: Họ kiểm tra chống lại các mô hình OCR được huấn luyện độc quyền trên các vùng cắt độ phân giải cao. Tất nhiên là SR sẽ giúp khi OCR của bạn chưa bao giờ nhìn thấy một đầu vào mờ. Bạn đang bù đắp cho một khoảng trống huấn luyện, không phải thêm thông tin mới.

Mô hình OCR của chúng tôi được huấn luyện với tăng cường đa quy mô (multi-scale augmentation). Mọi vùng cắt huấn luyện đều được giảm quy mô ngẫu nhiên xuống 40 đến 100% kích thước gốc rồi tăng quy mô trở lại, mô phỏng chính xác sự suy giảm độ phân giải mà SR tuyên bố sẽ sửa chữa. Mô hình đã thấy hàng nghìn hình ảnh biển số mờ, độ phân giải thấp trong quá trình huấn luyện. Nó học cách đọc chúng trực tiếp.

Thực sự, chỉ có một tình huống mà SR xứng đáng công sức cho LPR: bạn bị mắc kẹt với một sản phẩm OCR thương mại mà bạn không thể huấn luyện lại. Một API đám mây, một camera bị khóa nhà cung cấp, một hệ thống cũ nơi mô hình là một hộp đen. Bạn không thể sửa chữa huấn luyện của OCR, vì vậy bạn sửa chữa đầu vào của nó. Trong trường hợp hẹp đó, SR là một bộ tiền xử lý hợp lệ.

Nhưng đó không phải là cách bạn nên xây dựng hệ thống LPR vào năm 2026. Nếu bạn có quyền truy cập vào pipeline huấn luyện của riêng mình — và bạn nên có — cách tiếp cận đúng là huấn luyện OCR của bạn trên các vùng cắt thực tế mà camera của bạn tạo ra. Tăng cường đa quy mô là miễn phí. Nó chỉ cần một cờ trong script huấn luyện của bạn. Mô hình OCR học cách xử lý các đầu vào độ phân giải thấp một cách tự nhiên; không cần mô hình thứ hai, không có rủi ro ảo giác, không có độ trễ thêm.

Kết luận

Các kỹ thuật xuất phát từ nghiên cứu SR, như các hàm mất mát được hướng dẫn bởi OCR, các hình phạt nhầm lẫn ký tự, tái tạo nhận thức bố cục, là những ý tưởng thực sự có giá trị. Nhưng đóng góp lớn nhất của chúng có lẽ sẽ dành cho chính phương pháp luận huấn luyện OCR, không phải cho một giai đoạn tăng cấp riêng biệt.

Nếu bạn đang xây dựng hệ thống LPR tùy chỉnh và kiểm soát pipeline huấn luyện của mình, SR không phải là cách tiếp cận đúng đắn. Đó là một khái niệm thú vị và nghiên cứu đã tạo ra một số ý tưởng thực sự hữu ích về các hàm mất mát và tái tạo ký tự. Nhưng đối với nhận diện biển số sản xuất vào năm 2026, đó không phải là cách bạn nên dành thời gian của mình.

Hãy huấn luyện trên đúng dữ liệu. Chụp nhiều khung hình hơn. Bỏ phiếu tốt hơn. Đó là toàn bộ công thức.