Hành trình tạo nên JPEG XL: Khi các thí nghiệm mã nguồn mở định hình tương lai của nén ảnh

Công nghệ03 tháng 6, 2026·8 phút đọc

JPEG XL là tiêu chuẩn hình ảnh thế hệ tiếp theo, ra đời sau một thập kỷ thử nghiệm các ý tưởng táo bạo về mô hình nén và thị giác. Từ những dự án như WebP, Guetzli đến sự hợp tác với Cloudinary, Google đã tạo ra một định dạng mạnh mẽ hiện đang được áp dụng rộng rãi trong nhiếp ảnh, y tế và các hệ điều hành.

Hành trình tạo nên JPEG XL: Khi các thí nghiệm mã nguồn mở định hình tương lai của nén ảnh

Hành trình tạo nên JPEG XL: Khi các thí nghiệm mã nguồn mở định hình tương lai của nén ảnh JPEG XL là tiêu chuẩn hình ảnh thế hệ tiếp theo, ra đời sau một thập kỷ thử nghiệm các ý tưởng táo bạo về mô hình nén và thị giác. Từ những dự án như WebP, Guetzli đến sự hợp tác với Cloudinary, Google đã tạo ra một định dạng mạnh mẽ hiện đang được áp dụng rộng rãi trong nhiếp ảnh, y tế và các hệ điều hành.

Internet vận hành dựa trên hình ảnh. Ngay từ những ngày đầu, đã luôn tồn tại sự căng thẳng giữa độ trung thực thị giác và băng thông. Trong nhiều thập kỷ, ngành công nghệ dựa vào tiêu chuẩn JPEG kinh điển để tải ảnh nhanh chóng. Nó phục vụ chúng ta tốt, nhưng khi màn hình chuyển sang High Dynamic Range (HDR) và Wide Color Gamut (WCG), định dạng này bắt đầu bộc lộ hạn chế.

Con đường dẫn đến JPEG XL (JXL) không phải là một đường thẳng. Đó là một hành trình khám phá kéo dài một thập kỷ, tạo ra một loạt các dự án cột mốc kiểm tra các ý tưởng táo bạo về mô hình tâm lý thị giác (psychovisual modeling), mã hóa entropy và tối ưu hóa. Hôm nay, khi JPEG XL thấy sự chấp nhận nhanh chóng trên các hệ điều hành và tiêu chuẩn chuyên nghiệp, chúng ta hãy nhìn lại những thí nghiệm đã làm nên điều đó.

Nền tảng ban đầu: 2011–2017

Nghiên cứu của chúng tôi bắt đầu với sự tập trung vào việc hiểu rõ giới hạn của công nghệ hiện có. Chúng tôi không bắt đầu bằng cách cố gắng viết một tiêu chuẩn mới; chúng tôi bắt đầu bằng cách cố gắng cải thiện các tiêu chuẩn hiện có và học hỏi từ những hạn chế của chúng. Điều này cho phép chúng tôi tạo ra hình thức mới linh hoạt và hiệu quả hơn ở những nơi đúng đắn.

WebP Lossless và Brotli: Trong khi WebP Lossy (có mất dữ liệu) có nguồn gốc từ công nghệ video, thì WebP Lossless (2011) đại diện cho một sự thay đổi về kiến trúc và phạm vi. Chúng tôi đã ra mắt khái niệm "entropy image", một phương pháp đổi mới sử dụng hình ảnh phụ để điều phối việc lựa chọn mã entropy tĩnh cho dữ liệu thị giác chính. Chúng tôi đã áp dụng lại cách tiếp cận này sau này với mô hình hóa ngữ cảnh dựa trên dữ liệu trong định dạng nén Brotli, cho phép mô hình hóa ngữ cảnh phong phú mà không làm chậm quá trình giải mã.

Butteraugli: Khoảng năm 2014, chúng tôi nhận ra rằng việc nén toán học thô (PSNR) là chưa đủ, và các xấp xỉ tâm lý thị giác đơn giản (như SSIM) thất bại trong môi trường nhiều màu sắc. Chúng tôi đã xây dựng Butteraugli và không gian màu XYB để bắt chước quá trình phát hiện cạnh và xử lý màu sắc đối lập của hệ thống thị giác con người ở các thang đo khác nhau, cho phép chúng tôi nén hình ảnh hiệu quả hơn.

Biểu đồ so sánh hiệu suất nénBiểu đồ so sánh hiệu suất nén

Chúng tôi đã đẩy tiêu chuẩn JPEG 1 cũ (ISO/IEC 10918, ra mắt năm 1992) đến giới hạn tuyệt đối của nó thông qua hai dự án chính: Guetzli và Brunsli. Các sáng kiến này mang lại những hiểu biết vô giá về điểm mạnh và hạn chế của các phương pháp nén JPEG truyền thống. Guetzli (2016) là một bộ mã hóa nhận thức chậm nhưng mật độ cao, sử dụng Butteraugli để tìm các bảng lượng tử hóa tối ưu, giúp các tệp JPEG cũ nhỏ hơn 20-30%. Trong khi đó, Brunsli (2015) tập trung vào nén lại không mất dữ liệu (lossless recompression), cho phép người người dùng đóng gói lại các tệp JPEG hiện có thành dung lượng nhỏ hơn mà không mất một bit dữ liệu gốc nào. Sau khi hoàn thành việc tiêu chuẩn hóa JPEG XL, chúng tôi đã quay lại phạm vi của Guetzli vào năm 2024 và làm cho việc mã hóa nhanh hơn nhiều cũng như tương thích với HDR trong Jpegli.

Phản hồi từ các bản phát hành này, từ các chi tiết kỹ thuật của WebP Lossless đến các bài kiểm tra tâm lý thị giác của Guetzli, đã được chứng minh là vô giá. Mặc dù chúng tôi đã nhắm đến độ trung thực thị giác cao nhất, nhưng phản hồi từ các ngành thương mại điện tử nhạy cảm về chi tiết đã giúp chúng tôi tinh chỉnh các yêu cầu.

Sự hội tụ: Kỷ nguyên PIK (2017–2019) và tích hợp FUIF

Đến năm 2017, chúng tôi đã có những công cụ riêng biệt mạnh mẽ và đã đến lúc hợp nhất chúng. Trong việc mã nguồn mở PIK, chúng tôi đã kết hợp hiệu quả của Brunsli với các tối ưu hóa tâm lý thị giác của Guetzli. Hơn nữa, PIK đã giới thiệu một trường lượng tử hóa thích ứng thực sự và các tối ưu hóa khác. PIK hình thành đề xuất của chúng tôi cho tổ chức tiêu chuẩn ISO. Lời kêu gọi đề xuất cuối cùng của ủy ban đã hướng tới mật độ cực cao, yêu cầu tốc độ bit thấp tới 0.06 BPP, tương đương với 35 lần nén của hình ảnh chất lượng internet và 80 lần so với đầu ra của máy ảnh. Sự mở rộng phạm vi này đòi hỏi sự phức tạp hóa đáng kể của định dạng và bộ mã hóa, dẫn đến kiến trúc Biến đổi Cosin rời rạc kích thước khối biến đổi (VarDCT) vẫn là trung tâm của JPEG XL ngày nay.

Nhóm kỹ sư thảo luận về kiến trúc VarDCTNhóm kỹ sư thảo luận về kiến trúc VarDCT

Chúng tôi đã đề xuất hợp nhất đề xuất PIK của mình với đề xuất FUIF (Free Universal Image Format) từ Cloudinary. PIK sử dụng lựa chọn phân phối kiểu Brotli tại thời điểm mã hóa, trong khi FUIF tinh chỉnh mã tăng dần trong quá trình giải mã. Tiêu chuẩn JPEG XL cuối cùng trở thành sự thỏa hiệp tốt nhất của cả hai thế giới: chúng tôi sử dụng lựa chọn phân phối giải mã nhanh hơn của PIK với các cây ngữ cảnh tinh vi của FUIF. Sự sáp nhập này đại diện cho một sự rời bỏ khỏi quy trình tiêu chuẩn hóa do một nền tảng chi phối, và ưu tiên sự cộng hưởng kỹ thuật cũng như hợp tác.

JPEG XL hiện tại: Một hệ sinh thái đang phát triển

Hiệu quả, chất lượng được tối ưu hóa theo thị giác, kích thước tệp và tốc độ mã hóa của JPEG XL đang được chú ý. Chúng tôi đang thấy sự chấp nhận từ dưới lên (bottom-up) trong các ngành công nghiệp khác nhau, với các lĩnh vực đòi hỏi khắt khe nhất dẫn đầu. Nhờ khả năng xử lý độ sâu bit cao, chất lượng cao và thậm chí dữ liệu không mất dữ liệu một cách hiệu quả và mạnh mẽ, JPEG XL đã trở thành nền tảng trong một số lĩnh vực:

  • Nhiếp ảnh: Được sử dụng trong Digital Negative (DNG 1.7), Apple ProRAW và các định dạng khác.
  • Y tế: Được chấp nhận bởi DICOM, tiêu chuẩn quốc tế cho hình ảnh y khoa.
  • Xuất bản: Tích hợp vào các phiên bản tương lai của tiêu chuẩn PDF và EPUB.

Hệ sinh thái đang trưởng thành nhanh chóng. Phần mềm nhiếp ảnh của Adobe, iOS, macOS và visionOS của Apple đều có hỗ trợ gốc, cũng như các bản phân phối Linux như Ubuntu và tiện ích mở rộng JPEG XL Image của Microsoft. Thư viện libjxl-tiny của chúng tôi đã truyền cảm hứng cho Shikino High-Tech, Inc. và CAST phát hành lõi mã hóa (encoder IP core) thương mại JPEG XL đầu tiên cho thiết kế ASIC và FPGA, nhắm đến việc chụp ảnh thời gian thực, tiêu thụ điện năng thấp. Safari (2023) dẫn đầu trong các trình duyệt chính, trong khi Firefox và Chrome hiện đang duy trì hỗ trợ thử nghiệm.

Nhìn về tương lai

Câu chuyện về JPEG XL là minh chứng cho hiệu quả của lập kế hoạch dài hạn được xác thực bởi các cột mốc chức năng trung gian — với các nguyên mẫu khả thi tối thiểu như Guetzli và các công cụ thực tế như Brunsli và Brotli — mời gọi phản hồi từ cộng đồng mã nguồn mở. Một nhóm nghiên cứu nhỏ có thể đổi mới bằng cách kết tinh các giải pháp thông qua các lần lặp nhanh, với hàng nghìn, nếu không phải là hàng chục nghìn, thí nghiệm trong mô hình hóa tâm lý thị giác, entropy, tốc độ mã hóa và độ phức tạp, và toàn bộ ngành công nghiệp cuối cùng có thể điều hướng đến một tương lai hiệu quả và đẹp đẽ hơn.

Chúng tôi bắt đầu bằng cách cố gắng nén thêm một vài byte từ tiêu chuẩn JPEG 1 năm 1992; với JPEG XL, chúng tôi hy vọng đã thiết lập nền tảng cho hình ảnh kỹ thuật số có thể tồn tại trong ba thập kỷ tới.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗