Bỏ qua tới nội dung chính
Quay lại tin tức

Discord Tái Cấu Trúc Hoạt Động Cơ Sở Dữ liệu Xung quanh Tự động hóa để Quản lý ScyllaDB ở Quy mô Lớn

InfoQ AI· Craig Risi· 22/5/2026general

Discord đã công bố chi tiết về việc tái cấu trúc các hoạt động cơ sở dữ liệu của mình xoay quanh một khuôn khổ điều phối nội bộ mới có tên là Scylla Control Plane (SCP). Điều này cho phép đội ngũ cơ sở hạ tầng nhỏ của họ tự động hóa các tác vụ quản lý cụm ScyllaDB quy mô lớn, vốn trước đây phải mất nhiều ngày làm việc thủ công.

Trang chủ InfoQ Tin tức Discord tái cấu trúc hoạt động cơ sở dữ liệu xoay quanh tự động hóa để quản lý ScyllaDB ở quy mô lớn DevOps Discord tái cấu trúc hoạt động cơ sở dữ liệu xoay quanh tự động hóa để quản lý ScyllaDB ở quy mô lớn Ngày 22/5/2026 3 phút đọc Bởi Craig Risi Viết bài cho InfoQ Thỏa mãn sự tò mò của bạn. Giúp hơn 550.000 nhà phát triển cấp cao toàn cầu mỗi tháng luôn dẫn đầu. Liên hệ Nghe bài viết này - 0:00 Âm thanh sẵn sàng phát Trình duyệt của bạn không hỗ trợ phần tử âm thanh. 0:00 0:00 Bình thường 1.25x 1.5x Thích Danh sách đọc Discord đã trình bày chi tiết cách họ xây dựng lại các hoạt động cơ sở dữ liệu của mình xoay quanh một khuôn khổ điều phối nội bộ mới có tên Scylla Control Plane (SCP). Điều này cho phép đội ngũ cơ sở hạ tầng nhỏ của họ tự động hóa các tác vụ quản lý cụm ScyllaDB quy mô lớn mà trước đây phải mất nhiều ngày làm việc thủ công. Nền tảng này hiện tự động hóa các hoạt động phức tạp như nâng cấp luân phiên, mở rộng cụm, cung cấp cụm bóng (shadow cluster provisioning) và khôi phục nút trên hàng trăm nút cơ sở dữ liệu, giảm đáng kể chi phí vận hành và rủi ro. Động thái này phản ánh thách thức ngày càng tăng mà các nền tảng siêu quy mô phải đối mặt: vận hành các cơ sở dữ liệu phân tán ngày càng phức tạp với đội ngũ kỹ sư tương đối nhỏ. Đội ngũ Cơ sở hạ tầng Lưu trữ của Discord quản lý hàng chục cụm ScyllaDB chứa hàng trăm nút lưu trữ dữ liệu nền tảng cốt lõi, bao gồm tin nhắn, kênh và máy chủ. Trước đây, các hoạt động này dựa vào các tập lệnh Python và shell dễ hỏng, đòi hỏi kiến thức chuyên sâu và giám sát thủ công liên tục. Theo Discord, gánh nặng vận hành đã trở nên không bền vững khi quy mô và độ phức tạp của cơ sở hạ tầng tăng lên. Để giải quyết vấn đề này, Discord đã phát triển SCP như một khuôn khổ điều phối và tự động hóa tổng quát được xây dựng xung quanh các tác vụ, quy trình làm việc và công việc có thể tiếp tục lại. Hệ thống cho phép các kỹ sư định nghĩa khai báo các hoạt động trên toàn cụm bằng YAML, đồng thời tự động thực thi các kiểm tra an toàn, thử lại, xác thực phụ thuộc, kiểm soát đồng thời và bảo vệ khôi phục. Khuôn khổ này được thiết kế đặc biệt để giải quyết ba điểm yếu chính trong các công cụ trước đây của công ty: thứ tự thực thi không an toàn, không có khả năng phục hồi sau gián đoạn và khó mở rộng tự động hóa sang các kịch bản vận hành mới. SCP giới thiệu các điều kiện tiên quyết rõ ràng, duy trì trạng thái thông qua SQLite, phân loại lỗi, cảnh báo dựa trên webhook và song song hóa có thể cấu hình, đảm bảo rằng các hoạt động có thể tiếp tục an toàn ngay cả sau khi xảy ra lỗi hoặc gián đoạn. Một trong những cải tiến đáng kể nhất liên quan đến việc Discord sử dụng các cụm bóng (shadow clusters) – các bản sao tạm thời, đầy đủ sản xuất nhận lưu lượng truy cập thực để xác thực các bản nâng cấp ScyllaDB và thay đổi cơ sở hạ tầng trước khi chúng ảnh hưởng đến các hệ thống trực tiếp. Trước đây, việc cung cấp các môi trường này đòi hỏi sự phối hợp thủ công rộng rãi, bao gồm cấu hình nút, thiết lập sao chép, xác thực và gỡ bỏ. SCP hiện tự động hóa phần lớn quy trình này, giảm các hoạt động từng tiêu tốn hơn một ngày làm việc của kỹ sư thành các quy trình làm việc có thể chạy phần lớn mà không cần giám sát. Việc tự động hóa đặc biệt quan trọng vì Discord thường xuyên gặp phải các trường hợp ngoại lệ chỉ xuất hiện dưới quy mô và mô hình lưu lượng truy cập của nền tảng. Theo công ty, một số vấn đề liên quan đến nâng cấp chỉ xuất hiện khi mọi nút trong một cụm đã được cập nhật, khiến việc mô phỏng sản xuất thực tế trở nên cần thiết trước khi triển khai các thay đổi vào môi trường trực tiếp. Một trọng tâm chính của hệ thống là đảm bảo an toàn vận hành trong các môi trường phân tán, nơi các lỗi có thể lan truyền qua các cụm. SCP sử dụng các kiểm soát đồng thời có thể cấu hình cho phép các kỹ sư định nghĩa các quy tắc như "không bao giờ khởi động lại các nút trên nhiều vùng khả dụng cùng lúc", bảo vệ số lượng nút tối thiểu (quorum) của cụm và tính khả dụng trong các hoạt động bảo trì. Khuôn khổ này cũng thực thi tính bất biến (idempotency) cho các tác vụ, đảm bảo rằng các công việc bị gián đoạn có thể được thử lại an toàn mà không làm hỏng trạng thái hoặc trùng lặp hành động. Discord nhấn mạnh rằng lợi ích lớn nhất của hệ thống là Không chỉ tốc độ, mà còn giảm tải nhận thức. Các kỹ sư không còn phải giám sát thủ công các quy trình bảo trì dài hạn từng bước; thay vào đó, các quy trình công việc tự động thực thi, chỉ đưa ra các vấn đề khi cần sự can thiệp của con người. Công việc của Discord phản ánh một xu hướng lớn hơn trong các tổ chức siêu quy mô hướng tới việc xây dựng các mặt phẳng điều khiển nội bộ và hệ thống điều phối cho cơ sở hạ tầng có trạng thái. Các công ty vận hành cơ sở dữ liệu phân tán lớn ngày càng nhận ra rằng các tập lệnh tùy chỉnh và sổ tay vận hành thủ công trở thành gánh nặng vận hành khi hệ thống mở rộng quy mô. Những nỗ lực tương tự có thể thấy ở các công ty quản lý cơ sở hạ tầng dựa trên Cassandra và ScyllaDB, nơi điều phối, tự động hóa và phục hồi lỗi đang trở thành ưu tiên kỹ thuật trung tâm. Cộng đồng Cassandra và ScyllaDB rộng lớn hơn từ lâu đã tranh luận về sự phức tạp trong vận hành khi quản lý các hệ thống NoSQL phân tán ở quy mô lớn. Các cuộc thảo luận trong cộng đồng kỹ thuật trên Reddit thường chỉ ra những thách thức xung quanh việc sửa chữa, nén dữ liệu, an toàn quorum và nâng cấp cuốn chiếu, đặc biệt trong các môi trường có hàng trăm hoặc hàng nghìn nút. Sáng kiến SCP của Discord cho thấy các nhóm nền tảng ngày càng phản ứng bằng cách trừu tượng hóa sự phức tạp trong vận hành đằng sau các lớp tự động hóa dựa trên chính sách thay vì dựa vào chuyên môn cá nhân và kỷ luật quy trình. Cuối cùng, Scylla Control Plane của Discord làm nổi bật một sự phát triển rộng lớn hơn trong kỹ thuật cơ sở hạ tầng: chuyển từ các hoạt động dựa trên tập lệnh sang d

Nguồn tin: InfoQ AI — Tác giả: Craig Risi. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.