
Meta đã tái cấu trúc hệ thống tiếp nhận dữ liệu nhằm đạt được độ tin cậy ở quy mô petabyte như thế nào
Đội ngũ kỹ sư tại Meta gần đây đã trình bày cách công ty di chuyển nền tảng thu nạp dữ liệu, vốn chuyển hàng petabyte dữ liệu đồ thị xã hội MySQL mỗi ngày, nhằm cải thiện độ tin cậy và hiệu quả vận hành. Đội ngũ đã sử dụng các kỹ thuật như reverse shadowing (đổ bóng ngược) và giám sát tổng kiểm liên tục để đảm bảo không có thời gian ngừng hoạt động trong quá trình chuyển đổi.
Trang chủ InfoQ
Tin tức
Meta tái cấu trúc hệ thống tiếp nhận dữ liệu để đạt độ tin cậy ở quy mô Petabyte
AI, ML & Kỹ thuật dữ liệu
Meta tái cấu trúc hệ thống tiếp nhận dữ liệu để đạt độ tin cậy ở quy mô Petabyte
Ngày 30/5/2026
2 phút đọc
bởi
Renato Losio
Viết bài cho InfoQ
Thỏa mãn sự tò mò của bạn.
Giúp hơn 550.000 nhà phát triển cấp cao trên toàn cầu
luôn dẫn đầu mỗi tháng. Liên hệ
Nghe bài viết này - 0:00
Âm thanh sẵn sàng phát
Trình duyệt của bạn không hỗ trợ phần tử âm thanh.
0:00
0:00
Bình thường 1.25x 1.5x
Thích
Danh sách đọc
Đội ngũ kỹ sư tại Meta gần đây đã trình bày cách công ty di chuyển nền tảng tiếp nhận dữ liệu, vốn chuyển hàng petabyte dữ liệu biểu đồ xã hội MySQL hàng ngày, nhằm cải thiện độ tin cậy và hiệu quả vận hành. Đội ngũ đã sử dụng các kỹ thuật như sao chép ngược (reverse shadowing) và giám sát tổng kiểm liên tục để đảm bảo không có thời gian ngừng hoạt động trong quá trình chuyển đổi.
Meta vận hành một trong những hệ thống triển khai MySQL lớn nhất thế giới, với nền tảng tiếp nhận dữ liệu hỗ trợ phân tích, báo cáo, học máy và các tác vụ phát triển sản phẩm nội bộ. Công ty gần đây đã thiết kế lại kiến trúc của mình, thay thế các đường ống thuộc sở hữu của khách hàng bằng một dịch vụ kho dữ liệu tập trung, tự quản lý.
Với việc di chuyển này, Meta đã thay thế cơ sở hạ tầng phân mảnh, thuộc sở hữu của từng đường ống bằng một hệ thống quản lý tập trung, sử dụng các giai đoạn di chuyển, xác thực tự động, kiểm soát hoàn tác và các lớp tương thích để chuyển đổi hàng nghìn đường ống tiếp nhận mà không làm gián đoạn các tác vụ phân tích và học máy hạ nguồn.
Triển khai thử nghiệm hệ thống phân tán ở quy mô lớn, Meta đã di chuyển các tác vụ tiếp nhận qua ba giai đoạn: giai đoạn sao chép (shadow phase) xác thực hệ thống mới dựa trên dữ liệu sản xuất, giai đoạn sao chép ngược (reverse shadow phase) hoán đổi quyền sở hữu sản xuất trong khi vẫn giữ khả năng hoàn tác, và giai đoạn dọn dẹp (cleanup phase) loại bỏ đường ống cũ sau khi các kiểm tra tính nhất quán và hiệu suất được thông qua. Zihao Tao, kỹ sư phần mềm tại Meta, cùng các đồng nghiệp trong đội ngũ kỹ sư giải thích:
Chúng tôi liên tục giám sát số lượng hàng và sự không khớp tổng kiểm giữa các tác vụ sản xuất và các tác vụ sao chép. Khi xảy ra sự không khớp, chúng tôi nhanh chóng điều tra nguyên nhân gốc rễ và triển khai các bản sửa lỗi vào môi trường tiền sản xuất, sau đó xác minh rằng sự không khớp đã được giải quyết. Trong bước này, chúng tôi cũng đo lường hạn mức tính toán và lưu trữ cho các tác vụ sao chép để đảm bảo rằng môi trường sản xuất có đủ tài nguyên trước khi tiếp tục.
Sau khi hoàn thành việc di chuyển toàn bộ khối lượng công việc nhập dữ liệu và ngừng hoạt động hệ thống cũ, nhóm nghiên cứu thừa nhận thách thức của quá trình chuyển đổi cơ sở hạ tầng quy mô lớn:
Đảm bảo quá trình di chuyển liền mạch đòi hỏi phải theo dõi hiệu quả vòng đời di chuyển của hàng nghìn tác vụ và thiết lập các biện pháp kiểm soát triển khai và khôi phục mạnh mẽ để xử lý các vấn đề có thể phát sinh trong quá trình di chuyển.
Mỗi tác vụ di chuyển phải được xác thực theo các kiểm tra tính đúng đắn và hiệu suất nghiêm ngặt trước khi triển khai, so sánh số lượng hàng và tổng kiểm tra (checksum) giữa hệ thống cũ và mới, giám sát độ trễ và mức sử dụng tài nguyên để phát hiện các sai sót, đồng thời áp dụng các yêu cầu bổ sung cho các bảng quan trọng được sử dụng bởi các nhóm phụ thuộc. Nhóm nghiên cứu giải thích:
Cả hệ thống nhập dữ liệu cũ và mới đều sử dụng tính năng thu thập dữ liệu thay đổi (CDC) để nhập dữ liệu tăng dần vào bảng đích. Mỗi tác vụ nhập dữ liệu có bảng nội bộ riêng để sao chép toàn bộ cơ sở dữ liệu nguồn (full dump), bảng nội bộ để thu thập các thay đổi của cơ sở dữ liệu nguồn (delta) và bảng đích được khách hàng dữ liệu sử dụng. Tất cả thông tin về các thực thể tác vụ, bao gồm tên bảng và lược đồ bảng, được lưu và quản lý bởi dịch vụ quản lý trung tâm.
Syed Moeen Kazmi nhận xét:
Di chuyển nhập dữ liệu ở quy mô Meta không phải là một bản nâng cấp. Đó là một cuộc phẫu thuật tim hở đối với hoạt động kinh doanh cốt lõi. Thách thức không chỉ là di chuyển dữ liệu mà còn là duy trì tính nhất quán và thời gian ngừng hoạt động bằng không.
Vì kiến trúc CDC dựa vào các ảnh chụp nhanh toàn bộ tốn kém cho các tải ban đầu và khôi phục sau sửa lỗi, Meta đã giảm thiểu việc tạo các tác vụ bóng không cần thiết cho đến khi các vấn đề về chất lượng dữ liệu được giải quyết. Điều này tránh được các bản sao chép toàn bộ quy mô lớn lặp đi lặp lại và cải thiện đáng kể hiệu quả di chuyển. Nhóm nghiên cứu cũng giảm tải cơ sở hạ tầng bằng cách tái sử dụng các phân vùng ảnh chụp nhanh từ hệ thống cũ trong các giai đoạn di chuyển ban đầu.
/filters:no_upscale()/news/2026/05/meta-cdc-migration/en/resources/1Migrating-Data-Ingestion-Systems-at-Meta-Scale-image-1-e1778517437665-1779134836589.png)
/filters:no_upscale()/news/2026/05/meta-cdc-migration/en/resources/1Migrating-Data-Ingestion-Systems-at-Meta-Scale-image-2-1779134836589.jpg)
Nguồn tin: InfoQ AI — Tác giả: Renato Losio. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.