
Google Cloud đã giới thiệu tính năng hỗ trợ Iceberg đa công cụ trong BigQuery.
Tại Hội nghị thượng đỉnh Apache Iceberg vào tháng trước, Google đã công bố các tính năng tương tác mới cho Apache Iceberg trong BigQuery. Bản xem trước của danh mục Iceberg REST phi máy chủ cho phép các nhóm tạo, cập nhật và truy vấn cùng một bảng Apache Iceberg trong BigQuery và trong các công cụ như Spark, Flink và Trino mà không cần sao chép dữ liệu.
Trang chủ InfoQ
Tin tức
Google Cloud giới thiệu hỗ trợ Iceberg đa công cụ trong BigQuery
Điện toán đám mây
Google Cloud giới thiệu hỗ trợ Iceberg đa công cụ trong BigQuery
Ngày 23/5/2026
3 phút đọc
bởi
Renato Losio
Viết bài cho InfoQ
Thỏa mãn sự tò mò của bạn.
Giúp hơn 550.000 nhà phát triển cấp cao trên toàn cầu
luôn dẫn đầu mỗi tháng. Liên hệ
Nghe bài viết này - 0:00
Âm thanh sẵn sàng phát
Trình duyệt của bạn không hỗ trợ phần tử âm thanh.
0:00
0:00
Bình thường1.25x1.5x
Thích
Danh sách đọc
Tại Hội nghị thượng đỉnh Apache Iceberg vào tháng trước, Google đã công bố các tính năng tương tác mới cho Apache Iceberg trong BigQuery. Bản xem trước của danh mục REST Iceberg không máy chủ cho phép các nhóm tạo, cập nhật và truy vấn cùng một bảng Apache Iceberg trong BigQuery và trong các công cụ như Spark, Flink và Trino mà không cần sao chép dữ liệu.
Bản xem trước cho phép nhiều công cụ hoạt động trên cùng một tập dữ liệu mà không cần sao chép dữ liệu hoặc phụ thuộc vào các định dạng độc quyền. Nhà cung cấp dịch vụ đám mây cũng giới thiệu hỗ trợ quản lý siêu dữ liệu, bảo trì bảng và các tác vụ đồng bộ hóa thường được xử lý thủ công trong các triển khai Iceberg. Ông Yuriy Zhovtobryukh, Giám đốc sản phẩm cấp cao tại Google, và bà Angela Soares, Giám đốc tiếp thị sản phẩm cấp cao tại Google, giải thích lý do tại sao điều này lại quan trọng:
Nếu bạn đang xây dựng một lakehouse (hồ dữ liệu) ngày nay, bạn có thể đang sử dụng Apache Iceberg, vốn đã trở nên phổ biến rộng rãi trong các nhóm nền tảng dữ liệu cần hỗ trợ nhiều công cụ tính toán (như Spark và BigQuery) truy cập cùng một dữ liệu cho các khối lượng công việc khác nhau.
Tại sự kiện Next ’26 gần đây, Google đã mở rộng khả năng tương tác của Iceberg thành một lakehouse đa đám mây, hỗ trợ truy vấn các danh mục Iceberg trên AWS, Azure, Databricks và Snowflake, cũng như các quy trình làm việc AI. Theo Google, mục tiêu tổng thể là cho phép các tổ chức giữ dữ liệu ở các định dạng mở trong khi sử dụng các công cụ xử lý và phân tích khác nhau trên cùng một tập dữ liệu.
Google lập luận rằng nhiều nhóm sử dụng Apache Iceberg vẫn phải đối mặt với chi phí cao hơn và sự phức tạp trong vận hành so với các nền tảng dữ liệu được quản lý hoàn toàn, đặc biệt đối với dữ liệu luồng, các đường ống sao chép và quản trị trên nhiều công cụ. Để giải quyết vấn đề này, Google đang mở rộng cơ sở hạ tầng BigQuery của mình để hỗ trợ các bảng Iceberg, bao gồm siêu dữ liệu được quản lý, bảo trì bảng tự động, giao dịch và sao chép dữ liệu thay đổi. Ông Zhovtobryukh và bà Soares cho biết thêm:
Trước đây, khách hàng xây dựng lakehouse đã lựa chọn giữa các bảng Iceberg trong danh mục REST Iceberg do Google quản lý hoặc các bảng do BigQuery quản lý dựa trên công cụ ETL chính của họ. Điều đó có nghĩa là những khách hàng dựa vào Apache Spark để ETL vào các bảng Danh mục REST Iceberg không thể ghi thông qua BigQuery hoặc sử dụng các tính năng quản lý lưu trữ của nó.
Bản xem trước cũng bao gồm các kiểm soát truy cập bảng tập trung, cho phép quản lý quyền nhất quán trên các công cụ truy vấn. Với các thông báo mới nhất, Google Cloud hiện hỗ trợ truy vấn dữ liệu Iceberg trên AWS và Azure, khả năng tương tác với các nền tảng bên ngoài như Databricks và Snowflake, và tích hợp với dữ liệu phi cấu trúc và các quy trình làm việc AI.
BigQuery ObjectRefs hiện đã có sẵn rộng rãi, cho phép các nhóm kết hợp dữ liệu Iceberg có cấu trúc với các tệp phi cấu trúc được lưu trữ trong Cloud Storage để phân tích đa phương thức và các quy trình làm việc AI. Ngoài ra, Knowledge Catalog (trước đây là Dataplex), một lớp quản trị hiện đang trong giai đoạn xem trước, quản lý siêu dữ liệu, dòng dõi và kiểm soát truy cập trên các hệ thống.
Các chuyên gia thảo luận về cách tích hợp này có thể loại bỏ "thuế ẩn" đối với việc áp dụng Iceberg. David Colbert nhận xét:
Các nhóm rất hào hứng với khả năng của Iceberg/Delta nhưng nhanh chóng gặp phải khó khăn về nén, quản lý siêu dữ liệu và điều phối. Điểm danh mục là chìa khóa. Các định dạng mở giải quyết khả năng di động của lưu trữ, nhưng các lựa chọn mặt phẳng điều khiển xác định các tùy chọn dài hạn.
Xem xét các thông báo từ Next ’26, Precious Pendo viết:
Google đang đặt cược rằng giá trị AI doanh nghiệp sẽ thuộc về bất kỳ ai sở hữu lớp suy luận trên dữ liệu.
chứ không chỉ riêng lớp lưu trữ. AWS và Azure tính phí người dùng cho điện toán và lưu trữ. Google muốn tính phí người dùng cho ngữ cảnh và thông minh.
Google Cloud không phải là nhà cung cấp duy nhất tập trung vào các tác vụ Iceberg, khi các dịch vụ phân tích của AWS như EMR, Glue, Athena và Redshift đều hỗ trợ Iceberg nguyên bản. Thảo luận về cách Apache Iceberg đang thay đổi các hồ dữ liệu hiện đại, Shashank Muthuraj, kỹ sư điện toán đám mây tại Red Oak Strategic, viết:
Apache Iceberg đã chuyển từ một dự án kỹ thuật của Netflix thành tiêu chuẩn không thể tranh cãi cho kiến trúc hồ dữ liệu mở trong chưa đầy bảy năm. Những ưu điểm kỹ thuật — giao dịch ACID, phân vùng ẩn, khả năng quay ngược thời gian và tính độc lập của công cụ — rất hấp dẫn, nhưng câu chuyện thực sự là sự đồng thuận chưa từng có trong ngành.
Trong khi tính năng hỗ trợ bảng Iceberg được quản lý cốt lõi trong BigQuery hiện đã có sẵn rộng rãi, thì khả năng tương tác mở rộng hơn và các tính năng danh mục REST được công bố tại Hội nghị thượng đỉnh Iceberg 2026 vẫn đang trong giai đoạn xem trước.
Về tác giả
Renato Losio
Đánh giá bài viết này
Mức độ tiếp nhận
Phong cách
Đã liên hệ tác giả
Nội dung này thuộc chủ đề Điện toán đám mây (Cloud).
Các chủ đề liên quan:
Kiến trúc & Thiết kế
AI, ML & Kỹ thuật dữ liệu
Google BigQuery
Điện toán đám mây
Nguồn tin: InfoQ AI — Tác giả: Renato Losio. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.