DiLoCo tách rời: Một biên giới mới cho đào tạo AI phân tán, linh hoạt
Ngày 23 tháng 4 năm 2026 Nghiên cứu
DiLoCo tách rời: Một biên giới mới cho đào tạo AI phân tán, linh hoạt
Arthur Douillard và nhóm DiLoCo
Chia sẻ
Đã sao chép
Trình duyệt của bạn không hỗ trợ thẻ video. Trình duyệt của bạn không hỗ trợ thẻ video.
Kiến trúc phân tán mới của chúng tôi giúp đào tạo LLM trên các trung tâm dữ liệu ở xa - với băng thông thấp hơn và khả năng phục hồi phần cứng cao hơn.
Việc đào tạo một mô hình AI biên giới theo truyền thống phụ thuộc vào một hệ thống lớn, được liên kết chặt chẽ, trong đó các chip giống hệt nhau phải ở trạng thái đồng bộ hóa gần như hoàn hảo. Cách tiếp cận này có hiệu quả cao đối với các mô hình tiên tiến ngày nay, nhưng khi chúng ta hướng tới các thế hệ quy mô trong tương lai, việc duy trì mức độ đồng bộ hóa này trên hàng nghìn chip trở thành một thách thức hậu cần đáng kể.
Hôm nay, trong một bài báo mới, chúng tôi rất vui mừng được chia sẻ một cách tiếp cận mới cho vấn đề này, được gọi là DiLoCo tách rời (Truyền thông phân tán thấp). Bằng cách phân chia các hoạt động đào tạo lớn trên các “đảo” điện toán tách rời, với luồng dữ liệu không đồng bộ giữa chúng, kiến trúc này sẽ tách biệt các gián đoạn cục bộ để các phần khác của hệ thống có thể tiếp tục học tập một cách hiệu quả.
Kết quả là tạo ra một cách linh hoạt và linh hoạt hơn để đào tạo các mô hình tiên tiến trên các trung tâm dữ liệu phân tán trên toàn cầu. Và điều quan trọng là DiLoCo tách rời không gặp phải tình trạng chậm trễ trong giao tiếp khiến các phương pháp phân tán trước đây như Dữ liệu song song không thể thực hiện được ở quy mô toàn cầu.
Khi các mô hình biên giới tiếp tục phát triển về quy mô và độ phức tạp, chúng tôi đang khám phá các phương pháp tiếp cận đa dạng để đào tạo các mô hình trên nhiều máy tính, vị trí và phần cứng đa dạng hơn.
Trình duyệt của bạn không hỗ trợ thẻ video. Trình duyệt của bạn không hỗ trợ thẻ video.
Hình 1: Việc tách chương trình đào tạo thành các “đảo” điện toán riêng biệt (đơn vị học viên) cho phép đào tạo phần lớn không bị gián đoạn mặc dù mức độ lỗi phần cứng như nhau, vì ảnh hưởng của những lỗi đó là riêng biệt.
Phát triển đào tạo không đồng bộ có khả năng chịu lỗi cao hơn trên quy mô lớn
DiLoCo tách rời được xây dựng dựa trên hai tiến bộ trước đó: Pathways, giới thiệu hệ thống AI phân tán dựa trên luồng dữ liệu không đồng bộ và DiLoCo, giúp giảm đáng kể băng thông cần thiết giữa các trung tâm dữ liệu phân tán, giúp việc đào tạo các mô hình ngôn ngữ lớn trên khắp các địa điểm ở xa trở nên thiết thực.
DiLoCo tách rời tập hợp những ý tưởng đó lại với nhau để đào tạo các mô hình AI linh hoạt hơn trên quy mô lớn. Được xây dựng dựa trên Pathways, nó cho phép đào tạo không đồng bộ trên các nhóm máy tính riêng biệt (được gọi là đơn vị học viên) để lỗi chip ở một khu vực không làm gián đoạn tiến trình của các khu vực khác.
Cơ sở hạ tầng này cũng có khả năng tự phục hồi. Trong quá trình thử nghiệm, chúng tôi đã sử dụng một phương pháp có tên là “kỹ thuật hỗn loạn” để gây ra các lỗi phần cứng nhân tạo trong quá trình huấn luyện. DiLoCo đã tách rời tiếp tục quá trình đào tạo sau khi mất toàn bộ đơn vị học viên và sau đó tái hòa nhập chúng một cách liền mạch khi chúng trực tuyến trở lại.
Thử nghiệm DiLoCo tách rời với các mô hình Gemma 4 đã chứng minh rằng, khi phần cứng bị lỗi, hệ thống sẽ duy trì khả năng sẵn sàng của các cụm học tập cao hơn so với các phương pháp đào tạo truyền thống khác — trong khi cuối cùng vẫn mang lại cùng một mức hiệu suất học máy (ML) theo tiêu chuẩn.
Hình 2: Bên trái: Cách tiếp cận DiLoCo tách rời yêu cầu mức độ băng thông ít hơn so với các phương pháp đào tạo thông thường, khiến nó rất hiệu quả. Giữa: Với mức độ lỗi phần cứng ngày càng tăng, DiLoCo tách rời tiếp tục cung cấp mức độ “tốt” hoặc đào tạo hữu ích, trong khi các phương pháp tiếp cận khác đang thất bại. (Hai biểu đồ đầu tiên dựa trên quá trình đào tạo mô phỏng). Phải: Trong các thử nghiệm trong thế giới thực, hiệu suất ML điểm chuẩn của các mô hình Gemma 4 được đào tạo bằng DiLoCo tách rời ngang bằng với hiệu suất đạt được với các phương pháp đào tạo thông thường.
DiLoCo tách rời không chỉ có khả năng phục hồi tốt hơn trước các lỗi mà còn thiết thực để thực hiện đào tạo trước được phân phối đầy đủ ở cấp độ sản xuất. Chúng tôi đã đào tạo thành công mô hình tham số 12 tỷ trên bốn khu vực riêng biệt của Hoa Kỳ bằng cách sử dụng mạng diện rộng 2-5 Gbps (mức tương đối có thể đạt được bằng cách sử dụng kết nối Internet hiện có giữa các cơ sở trung tâm dữ liệu, thay vì yêu cầu cơ sở hạ tầng mạng tùy chỉnh mới giữa các cơ sở). Đáng chú ý, hệ thống đạt được kết quả huấn luyện này nhanh hơn 20 lần so với các phương pháp đồng bộ thông thường. Điều này là do hệ thống của chúng tôi kết hợp giao tiếp cần thiết vào thời gian tính toán dài hơn, tránh tình trạng tắc nghẽn "nghẽn" khi một phần của hệ thống phải chờ phần khác.
Thúc đẩy sự phát triển của cơ sở hạ tầng đào tạo AI
Tại Google, chúng tôi áp dụng phương pháp tiếp cận toàn diện để đào tạo AI, bao gồm cả phần cứng, cơ sở hạ tầng phần mềm và nghiên cứu. Càng ngày, lợi ích càng đến từ việc xem xét lại cách các lớp này khớp với nhau.
DiLoCo tách rời là một ví dụ. Bằng cách cho phép các công việc đào tạo ở băng thông quy mô internet, nó có thể khai thác bất kỳ máy tính nào không được sử dụng ở bất cứ đâu, biến các tài nguyên bị mắc kẹt thành năng lực hữu ích.
Ngoài hiệu quả và khả năng phục hồi, mô hình đào tạo này còn mở ra khả năng kết hợp các thế hệ phần cứng khác nhau, chẳng hạn như TPU v6e và TPU v5p, trong một lần đào tạo duy nhất. Cách tiếp cận này không chỉ kéo dài thời gian sử dụng hữu ích của phần cứng hiện có mà còn tăng tổng lượng điện toán có sẵn cho việc đào tạo mô hình. Trong các thử nghiệm của chúng tôi, các chip từ các thế hệ khác nhau chạy ở tốc độ khác nhau vẫn phù hợp với hiệu suất ML của các hoạt động đào tạo loại chip đơn, đảm bảo rằng ngay cả phần cứng cũ hơn cũng có thể tăng tốc đáng kể quá trình đào tạo AI.
Hơn nữa, vì các thế hệ phần cứng mới không xuất hiện ở mọi nơi cùng một lúc nên khả năng đào tạo giữa các thế hệ có thể giảm bớt những tắc nghẽn thường xuyên về năng lực và hậu cần.
Khi chúng tôi đẩy mạnh cơ sở hạ tầng AI ngày nay, chúng tôi đang tiếp tục khám phá các phương pháp tiếp cận các hệ thống linh hoạt cần thiết để mở khóa thế hệ AI tiếp theo.
Đọc báo cáo kỹ thuật của chúng tôi
Lời cảm ơn
Công việc này được thực hiện bởi một nhóm thành viên của Google DeepMind và Google Research.
Những người dẫn đầu và đóng góp cốt lõi đằng sau DiLoCo tách rời là Arthur Douillard, Keith Rush, Yan
Nguồn tin: Google DeepMind. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.