Google Cloud mang tính tương thích đa nền tảng cho Apache Iceberg vào BigQuery

Google Cloud vừa công bố các tính năng tương thích mới cho Apache Iceberg trong BigQuery, cho phép các nhóm kỹ thuật tạo, cập nhật và truy vấn cùng một bảng dữ liệu trên nhiều động cơ tính toán khác nhau mà không cần sao chép. Bản xem trước của danh mục REST serverless giúp đơn giản hóa việc quản lý dữ liệu lakehouse đa đám mây, đồng thời hỗ trợ các quy trình AI.

Tại hội nghị thượng đỉnh Apache Iceberg diễn ra tháng trước, Google đã công bố các tính năng tương thích mới dành cho Apache Iceberg trong BigQuery. Bản xem trước (preview) của danh mục REST serverless cho phép các nhóm kỹ thuật tạo, cập nhật và truy vấn cùng một bảng dữ liệu Apache Iceberg trên BigQuery cũng như các động cơ khác như Spark, Flink và Trino mà không cần sao chép dữ liệu.

Tối ưu hóa kiến trúc Lakehouse

Bản xem trước mới này cho phép nhiều công cụ khác nhau có thể hoạt động trên cùng một bộ dữ liệu mà không cần phải sao chép hay phụ thuộc vào các định dạng độc quyền. Nhà cung cấp đám mây này cũng giới thiệu hỗ trợ được quản lý cho siêu dữ liệu (metadata), bảo trì bảng và các tác vụ đồng bộ hóa — những việc thường phải xử lý thủ công trong các triển khai Iceberg trước đây.

Yuriy Zhovtobryukh, quản lý sản phẩm cấp cao tại Google, và Angela Soares, quản lý tiếp thị sản phẩm cấp cao tại Google, chia sẻ lý do tại sao tính năng này lại quan trọng:

Nếu bạn đang xây dựng một lakehouse ngày nay, bạn có lẽ đang sử dụng Apache Iceberg, thứ đã đạt được sự phổ biến lớn lao among các nhóm nền tảng dữ liệu cần hỗ trợ nhiều động cơ tính toán (như Spark và BigQuery) truy cập cùng một dữ liệu cho các khối lượng công việc khác nhau.

Hỗ trợ đa đám mây và AI

Tại sự kiện Next ’26 gần đây, Google đã mở rộng khả năng tương thích của Iceberg thành một lakehouse đa đám mây (cross-cloud), hỗ trợ truy vấn các danh mục Iceberg trên AWS, Azure, Databricks và Snowflake, cũng như các quy trình AI. Theo Google, mục tiêu tổng thể là cho phép các tổ chức giữ dữ liệu ở các định dạng mở trong khi sử dụng các công cụ xử lý và phân tích khác nhau trên cùng một bộ dữ liệu.

Google lập luận rằng nhiều nhóm sử dụng Apache Iceberg vẫn phải đối mặt với chi phí cao hơn và độ phức tạp vận hành so với các nền tảng dữ liệu được quản lý hoàn toàn, đặc biệt là đối với dữ liệu luồng (streaming data), đường ống sao chép và quản trị trên nhiều công cụ. Để giải quyết vấn đề này, Google đang mở rộng cơ sở hạ tầng BigQuery để hỗ trợ các bảng Iceberg, bao gồm siêu dữ liệu được quản lý, bảo trì bảng tự động, giao dịch và sao chép dữ liệu thay đổi.

Zhovtobryukh và Soares bổ sung:

Trước đây, khách hàng xây dựng lakehouse phải lựa chọn giữa các bảng Iceberg trong danh mục REST Iceberg do Google quản lý hoặc các bảng do BigQuery quản lý dựa trên động cơ ETL chính của họ. Điều đó có nghĩa là khách hàng dựa vào Apache Spark cho ETL vào các bảng danh mục REST Iceberg không thể ghi thông qua BigQuery hoặc sử dụng các tính năng quản lý lưu trữ của nó.

Quản lý và Quản trị dữ liệu

Bản xem trước cũng bao gồm các điều khiển quyền truy cập bảng tập trung, cho phép quản lý quyền hạn nhất quán trên các động cơ truy vấn. Với các thông báo mới nhất, Google Cloud hiện hỗ trợ truy vấn dữ liệu Iceberg trên AWS và Azure, khả năng tương tác với các nền tảng bên ngoài như Databricks và Snowflake, và tích hợp với dữ liệu phi cấu trúc cũng như quy trình AI.

BigQuery ObjectRefs hiện đã được phát hành rộng rãi (generally available), cho phép các nhóm kết hợp dữ liệu Iceberg có cấu trúc với các tệp phi cấu trúc được lưu trữ trong Cloud Storage để phân tích đa phương thức và quy trình AI. Ngoài ra, Knowledge Catalog (trước đây là Dataplex), một lớp quản trị hiện đang trong bản xem trước, quản lý siêu dữ liệu, dòng dữ liệu (lineage) và điều khiển truy cập trên các hệ thống.

Các chuyên gia thảo luận về cách tích hợp này có thể loại bỏ "thuế ẩn" khi áp dụng Iceberg. David Colbert nhận xét:

Các nhóm hào hứng với khả năng của Iceberg/Delta nhưng nhanh chóng gặp ma sát trong việc nén, quản lý siêu dữ liệu và điều phối. Điểm về danh mục là then chốt. Các định dạng mở giải quyết tính di động của lưu trữ, nhưng các lựa chọn mặt phẳng điều khiển (control plane) quyết định tính khả thi tùy chọn trong dài hạn.

Tiêu chuẩn mới cho dữ liệu mở

Đánh giá các thông báo từ Next ‘26, Precious Pendo viết:

Google đang đặt cược rằng giá trị AI của doanh nghiệp sẽ thuộc về bất kỳ ai sở hữu lớp lý luận (reasoning layer) trên dữ liệu, không chỉ là lớp lưu trữ. AWS và Azure tính phí bạn cho tính toán và lưu trữ. Google muốn tính phí bạn cho bối cảnh và trí tuệ.

Google Cloud không phải là nhà cung cấp duy nhất tập trung vào khối lượng công việc Iceberg, với các dịch vụ phân tích của AWS như EMR, Glue, Athena và Redshift đều cung cấp hỗ trợ nguyên bản cho Iceberg. Shashank Muthuraj, kỹ sư đám mây tại Red Oak Strategic, viết về cách Apache Iceberg đang chuyển đổi các hồ dữ liệu hiện đại:

Apache Iceberg đã chuyển từ một dự án kỹ thuật của Netflix thành tiêu chuẩn không thể tranh cãi cho kiến trúc lakehouse dữ liệu mở trong chưa đầy bảy năm. Các ưu điểm kỹ thuật — giao dịch ACID, phân vùng ẩn, time travel và sự độc lập của động cơ — là thuyết phục, nhưng câu chuyện thực sự là sự đồng thuận trong ngành chưa từng có.

Trong khi hỗ trợ bảng Iceberg được quản lý cốt lõi trong BigQuery hiện đã có sẵn rộng rãi, các khả năng tương thích mở rộng hơn và danh mục REST được công bố tại Iceberg Summit 2026 vẫn đang trong bản xem trước.

Google Cloud mang tính tương thích đa nền tảng cho Apache Iceberg vào BigQuery

Tối ưu hóa kiến trúc Lakehouse

Hỗ trợ đa đám mây và AI

Quản lý và Quản trị dữ liệu

Tiêu chuẩn mới cho dữ liệu mở

Bài viết liên quan