Từ Pixel đến DNA: Tương lai của nén dữ liệu mở rộng cho mọi loại hình

Nén dữ liệu không còn chỉ là vấn đề của âm thanh hay hình ảnh, mà đang mở rộng sang bộ gen, mạng nơ-ron và dữ liệu 3D. Các tiêu chuẩn mới như JPEG AI, MPEG và công nghệ lưu trữ DNA đang định hình lại hệ sinh thái kỹ thuật số nhằm giải quyết sự bùng nổ dữ liệu toàn cầu.

Trước đây, chúng ta thường bàn về nén dữ liệu trong bối cảnh âm thanh và video. Ngày nay, vấn đề này đã mở rộng thành nén dữ liệu cho mọi loại hình: từ bộ gen (genome), dữ liệu đám mây điểm (point clouds), xúc giác, cảnh 3D cho đến mạng nơ-ron và các đặc điểm máy học.

Mọi loại dữ liệu hiện nay đều phải trải qua một hình thức nén nào đó, đơn giản vì chúng ta đang tạo ra một lượng khổng lồ các bit dữ liệu trong mọi lĩnh vực, từ giải trí, y tế đến xe tự hành.

Chỉ trong hơn 70 năm kể từ khi transistor được phát minh vào năm 1947, nhân loại đã mở khóa sức mạnh tính toán chưa từng có, mạng không dây, internet, trí tuệ nhân tạo, thiết bị di động, màn hình độ phân giải cao và những bước tiến vượt bậc trong di truyền học, y tế và khám phá vũ trụ. Tất cả những điều này đều dựa trên một nền tảng duy nhất: dữ liệu số.

Dữ liệu: Tài nguyên vô tận nhưng cần quản lý

Con người có tình yêu đặc biệt với dữ liệu. Nếu thức ăn và nước uống nuôi dưỡng cơ thể, thì dữ liệu — sau khi chuyển hóa thành kiến thức — nuôi dưỡng tâm trí. Khi chúng ta chia sẻ dữ liệu, chúng ta tiến hóa như một loài, và chúng ta không có dấu hiệu slowing down.

Vào năm 2020, lượng dữ liệu toàn cầu được tạo ra, thu thập, sao chép và tiêu thụ trong một năm là khoảng 59 zettabyte (tương đương 59 nghìn tỷ gigabyte). Dự báo đưa con số này lên khoảng 175 ZB vào năm 2025. Một zettabyte bằng 8.000.000.000.000.000.000.000 bit. Chúng ta rất giỏi trong việc tạo ra dữ liệu, nhưng vấn đề nằm ở chỗ làm thế nào để truyền tải, lưu trữ, xử lý và tin tưởng vào nó.

Dữ liệu không giống như dầu mỏ — dầu mỏ là hữu hạn, còn dữ liệu thì không. Đó chính là lý do tại sao nén dữ liệu hiện nay là một công nghệ nền tảng cho toàn bộ hệ sinh thái kỹ thuật số.

JPEG: Từ .jpg đến AI, Trust và DNA

ISO/IEC JTC 1/SC 29 là tổ chức đứng sau các tiêu chuẩn JPEG và MPEG, đặt nền móng cho toàn bộ ngành truyền thông kỹ thuật số. Hiện nay, phạm vi của họ đang mở rộng từ "phương tiện cho con người" sang "dữ liệu cho con người và máy móc".

JPEG AI: Tensor tiềm ẩn thay vì pixel

JPEG AI là tiêu chuẩn nén hình ảnh đầu tiên dựa trên học máy (learning-based), sử dụng AI và không gian tiềm ẩn (latent spaces) thay vì các phép biến đổi thủ công.

Cốt lõi của JPEG AI là biến đổi hình ảnh thành một tensor tiềm ẩn, sau đó nén và truyền tải nó. Bộ giải mã sẽ tái tạo hình ảnh từ biểu diễn này, nhưng cũng có thể hoạt động trực tiếp trên miền nén, cho phép các quy trình phân tích và nhiệm vụ thị giác máy tính diễn ra mà không cần giải mã hoàn toàn pixel. Một biểu diễn nén duy nhất có thể phục vụ cả cho việc xem của con người và phân tích của máy móc.

JPEG Trust: Tính xác thực trong thế giới AI tổng hợp

Web đang bị ngập bởi các hình ảnh và video giả mạo (deepfakes) được tạo ra bởi các mô hình sinh tạo. JPEG Trust định nghĩa một khung để theo dõi nguồn gốc, tính xác thực và quyền sở hữu của hình ảnh kỹ thuật số, bao gồm cả nội dung do AI tạo ra.

Nó hoạt động như một chữ ký số nhúng đi kèm với nội dung của bạn, giúp thiết lập niềm tin vào phương tiện kỹ thuật số và chống lại việc thao túng ý kiến công cộng.

JPEG Pleno: Trường ánh sáng và Hologram

JPEG Pleno là khung quốc tế để biểu diễn và nén dữ liệu plenoptic: trường ánh sáng, đám mây điểm và hình ảnh toàn息 (holograms). Nó vượt xa hình ảnh 2D để bắt lấy cả hướng và cường độ ánh sáng trong không gian. Điều này quan trọng cho VR/AR, hình ảnh y tế và các ứng dụng di sản văn hóa.

JPEG XS: Video độ trễ cực thấp

Khác với việc đẩy độ nén đến giới hạn, JPEG XS ưu tiên độ trễ siêu thấp và độ phức tạp thấp. Tỷ lệ nén nhẹ khoảng 4:1 cho phép truyền tải tín hiệu 4K trong băng thông thường dành cho 1080p, giúp tiết kiệm băng thông và giảm tiêu thụ năng lượng.

JPEG DNA: Lưu trữ hình ảnh trong các phân tử

Một trong những khám phá thú vị nhất là JPEG DNA, nơi phương tiện lưu trữ không phải là từ tính hay quang học mà là sinh học. DNA là kho lưu trữ dữ liệu gốc của thiên nhiên với tuổi thọ vượt xa bất kỳ đĩa hay băng từ nào.

JPEG DNA nhằm mục đích định nghĩa cách mã hóa hình ảnh kỹ thuật số thành chuỗi DNA một cách hiệu quả và mạnh mẽ. Đây là một nỗ lực để tưởng tượng về giải pháp lưu trữ "tương lai" khi chúng ta bắt đầu suy nghĩ theo thế kỷ thay vì theo năm.

MPEG: Hướng tới codec nhận thức AI và tiết kiệm năng lượng

Tại sao chúng ta vẫn cần codec video mới?

Video vẫn là loại phương tiện tiêu tốn nhiều băng thông nhất. Mặc dù việc giảm tỷ lệ bit vẫn quan trọng, nhưng các codec thế hệ tiếp theo sẽ được đánh giá không chỉ trên hiệu quả nén mà còn về độ trễ, khả năng triển khai, chi phí và mức độ phù hợp với trường hợp sử dụng.

Tiêu chuẩn video mới nhất là VVC (Versatile Video Coding) được xuất bản năm 2020. MPEG hiện đang phát triển dự án Mô hình Nén Cải tiến (ECM), dự kiến sẽ là nền tảng cho codec H.267 trong tương lai, nhằm giảm khoảng 40% tỷ lệ bit so với VVC.

Hiệu quả năng lượng và Siêu dữ liệu Xanh

Khi các codec ngày càng phức tạp, quá trình mã hóa tốn nhiều năng lượng hơn. ISO/IEC 23001-11 (Siêu dữ liệu Xanh) giải quyết vấn đề này bằng cách định nghĩa siêu dữ liệu cho phép thiết bị và màn hình giảm mức tiêu thụ điện năng. Hệ sinh thái đang bắt đầu coi trọng "jun trên bit" (joules per bit) tương đương với "bit trên pixel".

AI trong mã hóa video

MPEG đang khám phá Mã hóa Video Mạng Nơ-ron (NNVC) theo ba hướng chính:

Codec lai với công cụ nơ-ron: Thêm các thành phần nơ-ron vào khung biến đổi truyền thống.
Siêu phân giải nơ-ron và bộ lọc hậu xử lý: Giảm độ phân giải đầu vào trước khi mã hóa, sau đó sử dụng AI để nâng cấp lại sau khi giải mã.
Codec nơ-ron đầu cuối: Toàn bộ quy trình được học như một mạng duy nhất.

Tuy nhiên, thách thức lớn là độ phức tạp của bộ giải mã, có thể cao gấp 14 đến 118 lần so với VVC, gây khó khăn cho thiết bị di động. Tương lai sẽ thuộc về những ai có thể cung cấp giải pháp nhanh nhất và hiệu quả nhất.

Video cho Máy móc: VCM và FCM

Một phần lớn dữ liệu thị giác ngày nay, đặc biệt từ camera, được tiêu thụ bởi máy móc: xe tự hành, drone, robot công nghiệp và cảm biến thành phố thông minh. Tuy nhiên, hầu hết các hệ thống này vẫn truyền video dựa trên pixel được nén bằng codec hướng tới con người, gây lãng phí băng thông và rủi ro bảo mật.

Mã hóa Video cho Máy móc (VCM)

VCM tổ chức lại quy trình mã hóa video xung quanh hiệu suất nhiệm vụ của máy móc (như phát hiện vật thể, theo dõi) thay vì chất lượng thị giác của con người. Nó đạt được điều này bằng cách lấy mẫu lại theo thời gian, giảm độ phân giải không gian và giảm độ chính xác màu sắc dựa trên mức độ liên quan của nhiệm vụ.

Mã hóa Đặc tính cho Máy móc (FCM)

FCM giải quyết vấn đề quyền riêng tư và băng thông bằng cách nén các đặc tính trung gian của mạng nơ-ron thay vì pixel. Thay vì gửi toàn bộ khung hình video lên đám mây, thiết bị biên chạy một phần của mạng nơ-ron và chỉ gửi tensor đặc tính nén.

Tiết kiệm băng thông có thể lên tới khoảng 97% trong một số kịch bản, đồng thời các đặc tính bảo toàn ngữ nghĩa nhưng không lộ danh tính. Ngay cả khi bị chặn, chúng không trực tiếp tiết lộ hình ảnh.

Nén mạng nơ-ron và dữ liệu 3D

Các mô hình AI mà chúng ta sử dụng để nén và giải thích dữ liệu bản thân chúng cũng là các khối dữ liệu khổng lồ. Mã hóa Mạng Nơ-ron (NNC) cung cấp một cách tiêu chuẩn hóa để thu nhỏ mạng nơ-ron sâu một cách mạnh mẽ mà không làm giảm độ chính xác, kết hợp các kỹ thuật như làm thưa (sparsification), cắt tỉa cấu trúc và lượng tử hóa. Kết quả là mạng nơ-ron có thể được nén lên tới 97% trong khi vẫn giữ nguyên độ chính xác.

Về phía 3D, MPEG đang khám phá Mã hóa Gaussian Splat (GSC) cho việc chụp và kết xuất cảnh 3D, cũng như các tiêu chuẩn đám mây điểm (G-PCC) mới cho các ứng dụng như lái xe tự hành và robot.

Âm thanh: Đắm chìm, cá nhân hóa và rõ lời

MPEG-H Audio đang ngày càng phát triển nhờ tiếp cận dựa trên đối tượng thay vì dựa trên kênh. Âm thanh dựa trên đối tượng cho phép người dùng cá nhân hóa bản phối, tăng bình luận, giảm tiếng ồn đám đông hoặc chuyển đổi giữa các góc nhìn.

Một tính năng nổi bật là MPEG-H Dialog+, tách lời nói khỏi phần còn lại của bản nhạc và cho phép tăng cường có chọn lọc, giúp những người khó nghe hiểu rõ hơn mà không làm giảm chất lượng âm nhạc.

Kết luận

Một mô hình rõ ràng đang hiện ra: nén dữ liệu không còn chỉ là một kỹ thuật giảm kích thước tệp mà đã trở thành một nguyên tắc thống nhất hướng dẫn thiết kế, khả năng mở rộng và độ tin cậy của các hệ thống số.

Chúng ta đang nén mọi thứ: từ hình ảnh và âm thanh đến bộ gen, mạng nơ-ron và các mô hình thế giới nhiều chiều. Trong quá trình này, trọng tâm đang chuyển từ biểu diễn hướng tới con người sang biểu diễn hướng tới máy móc, nơi ngữ nghĩa quan trọng hơn pixel và ý nghĩa được ưu tiên hơn độ trung thực thô. Đồng thời, niềm tin, tính xác thực, tiêu thụ năng lượng và độ phức tạp tính toán đang trở thành tâm điểm.

Trong góc nhìn rộng hơn này, nén dữ liệu hoạt động giống như một "hệ điều hành" cho toàn cầu dữ liệu: hiếm khi được chú ý khi hoạt động tốt, nhưng là nền tảng cho mọi thứ được xây dựng trên đó.

Từ Pixel đến DNA: Tương lai của nén dữ liệu mở rộng cho mọi loại hình

Dữ liệu: Tài nguyên vô tận nhưng cần quản lý

JPEG: Từ .jpg đến AI, Trust và DNA

JPEG AI: Tensor tiềm ẩn thay vì pixel

JPEG Trust: Tính xác thực trong thế giới AI tổng hợp

JPEG Pleno: Trường ánh sáng và Hologram

JPEG XS: Video độ trễ cực thấp

JPEG DNA: Lưu trữ hình ảnh trong các phân tử

MPEG: Hướng tới codec nhận thức AI và tiết kiệm năng lượng

Tại sao chúng ta vẫn cần codec video mới?

Hiệu quả năng lượng và Siêu dữ liệu Xanh

AI trong mã hóa video

Video cho Máy móc: VCM và FCM

Mã hóa Video cho Máy móc (VCM)

Mã hóa Đặc tính cho Máy móc (FCM)

Nén mạng nơ-ron và dữ liệu 3D

Âm thanh: Đắm chìm, cá nhân hóa và rõ lời

Kết luận

Bài viết liên quan