Năm cách tinh chỉnh Chronos-2, mô hình nền tảng chuỗi thời gian…

Trong Phần 1 của loạt bài này, chúng tôi đã giới thiệu Chronos-2, một mô hình nền tảng chuỗi thời gian. Chúng tôi đã thực hành thông qua một nghiên cứu điển hình thực tế và thấy được những gì Chronos-2 có thể làm ngay lập tức, mà không cần huấn luyện. Tuy nhiên, như chúng tôi đã lưu ý ở cuối Phần 1, zero-shot (dự đoán không cần huấn luyện) không phải lúc nào cũng đủ. Trong các trường hợp [...] Bài viết Năm cách tinh chỉnh Chronos-2, Mô hình nền tảng chuỗi thời gian xuất hiện đầu tiên trên Towards Data Science.

Học máy Năm cách tinh chỉnh Chronos-2, mô hình nền tảng chuỗi thời gian Phần 2: Hướng dẫn thực hành về thích ứng LoRA Thư Ái Quốc Ngày 4/6/2026 Đọc 17 phút Chia sẻ Được tạo bởi GPT Image 2 Trong Phần 1 của loạt bài này, chúng tôi đã giới thiệu Chronos-2, một mô hình nền tảng chuỗi thời gian. Chúng tôi đã thực hành bằng cách xem xét một nghiên cứu điển hình thực tế và thấy những gì Chronos-2 có thể làm ngay lập tức, mà không cần huấn luyện. Nhưng như chúng tôi đã lưu ý ở cuối Phần 1, zero-shot (dự đoán không cần huấn luyện) không phải lúc nào cũng đủ. Trong các trường hợp khi: Dữ liệu của bạn có thể không giống bất kỳ dữ liệu nào trong tập huấn luyện trước. Mô hình liên tục mắc lỗi hệ thống. Bạn có dữ liệu lịch sử phong phú có thể tận dụng. Mục tiêu hạ nguồn của bạn có thể không phù hợp với mục tiêu mà quá trình huấn luyện của Chronos-2 tối ưu hóa. Tinh chỉnh là bước tiếp theo tự nhiên. Trong bài đăng này, chúng tôi sẽ tiếp tục nghiên cứu điển hình về nhu cầu điện của tòa nhà từ Phần 1 và xem xét năm kịch bản tinh chỉnh của Chronos-2: Thích ứng một tòa nhà: cách tinh chỉnh trên một tài sản. Tinh chỉnh danh mục: cách tổng hợp lịch sử trên toàn bộ đội xe cho một bộ điều hợp chung. Tinh chỉnh dựa trên biến đồng biến: cách tinh chỉnh với các tín hiệu đã biết trong tương lai. Danh mục + biến đồng biến: cách tận dụng cả thông tin biến đồng biến và đội xe. Chuyển giao dữ liệu giữ lại: cách thích ứng một lần, sau đó triển khai trên các tài sản mà mô hình chưa từng thấy trong quá trình tinh chỉnh. Cuối cùng, bạn sẽ có một mẫu làm việc để tinh chỉnh một TSFM (mô hình nền tảng chuỗi thời gian) sẵn sàng thích ứng với dữ liệu của riêng bạn. Phần 1 của loạt bài này giới thiệu cách Chronos-2 dự báo cho các kịch bản đơn biến, đa biến, dựa trên biến đồng biến và học chéo. Nếu bạn muốn sử dụng Chronos-2 ngay lập tức, hãy xem bài đăng tại đây. 1. Tóm tắt nghiên cứu điển hình Hãy nhanh chóng xem lại thiết lập từ Phần 1. Chúng tôi có một tập dữ liệu tổng hợp gồm tám tòa nhà thương mại ghi lại nhu cầu điện hàng giờ. Nhiệm vụ chúng tôi muốn giải quyết là dự báo tổng tải điện trước một tuần, tức là 168 giờ. Chúng tôi có một bộ mô phỏng vật lý để tạo tập dữ liệu, trong đó tổng tải được phân tách thành tải cơ bản, tải cắm, tải chiếu sáng và tải HVAC. Về mặt vật lý, tải cắm và tải chiếu sáng được xác định bởi các mẫu sử dụng trong ngày làm việc, trong khi tải HVAC được xác định bởi nhiệt độ ngoài trời. Bây giờ, điều mới trong Phần 2 là chúng tôi mô phỏng một khoảng thời gian dài hơn để có dữ liệu cho việc tinh chỉnh. Và chúng tôi giữ sự phân tách rõ ràng giữa dữ liệu tinh chỉnh và dữ liệu suy luận. Cụ thể, chúng tôi chia dòng thời gian thành bốn cửa sổ liên tục: Huấn luyện (12 tuần): 01/3/2025 đến 22/5/2025, cửa sổ duy nhất mà quá trình tinh chỉnh nhìn thấy. Xác thực (1 tuần): 23/5/2025 đến 29/5/2025, được sử dụng để chọn điểm kiểm tra và dừng sớm. Ngữ cảnh suy luận (45 ngày): 30/5/2025 đến 13/7/2025, cửa sổ được sử dụng làm ngữ cảnh khi đưa ra dự báo. Quy trình zero-shot trong Phần 1 cũng sử dụng 45 ngày ngữ cảnh. Kiểm tra (1 tuần): 14/7/2025 đến 20/7/2025, chân trời dự báo để kiểm tra mô hình đã tinh chỉnh. Lưu ý rằng quá trình tinh chỉnh sẽ chỉ thấy dữ liệu trong tập huấn luyện và xác thực, do đó không có sự rò rỉ trong phân tích. Hình 1. Phân chia huấn luyện/xác thực/ngữ cảnh/kiểm tra. (Hình ảnh của tác giả) 2. Tóm tắt về tinh chỉnh và LoRA Trước khi đi vào hướng dẫn, hãy cùng thảo luận ngắn gọn về khái niệm tinh chỉnh và một trong những công nghệ cụ thể của nó, tức là LoRA. 2.1 Tinh chỉnh là gì? Tinh chỉnh (fine-tuning) là quá trình tiếp tục huấn luyện một mô hình đã được huấn luyện trước (pretrained model) bằng dữ liệu riêng. Về cơ bản, chúng ta điều chỉnh các trọng số của mô hình đã huấn luyện trước để mô hình hiểu và tuân theo các mẫu cụ thể của vấn đề. Đối với Chronos-2, đây là một Transformer với 120 triệu tham số, đã học được nhiều cấu trúc chuỗi thời gian tổng quát. Tinh chỉnh sẽ cho phép chúng ta điều chỉnh hành vi của nó theo hướng dữ liệu của mình. Tuy nhiên, liệu chúng ta có nên cập nhật tất cả 120 triệu tham số không? Có lẽ là không. Việc này có thể tốn kém cả về điện toán và lưu trữ. Ngoài ra, trên thực tế, chúng ta có thể không có đủ dữ liệu để hỗ trợ điều chỉnh tất cả 120 triệu tham số. Chúng ta cần một cách hiệu quả hơn để thực hiện tinh chỉnh. Một giải pháp như vậy là LoRA. 2.2 LoRA là gì? LoRA là viết tắt của Low-Rank Adaptation [1]. Ý tưởng cốt lõi của nó rất đơn giản: thay vì cập nhật toàn bộ ma trận trọng số, chúng ta đóng băng mô hình gốc đã được huấn luyện trước và chỉ học một tập hợp nhỏ các tham số bổ sung để sửa đổi nhẹ hành vi của nó. Ví dụ, giả sử một lớp trong mô hình đã huấn luyện trước chứa ma trận trọng số W, với kích thước d_out x d_in, trong đó d_out=d_in=1024. Việc cập nhật ma trận trọng số sẽ ngụ ý: Khi đó, kích thước của ΔW cũng cần là 1024 x 1024. Nếu chúng ta muốn thực hiện cập nhật đầy đủ, điều đó có nghĩa là chúng ta cập nhật hơn một triệu tham số có thể huấn luyện được. Thủ thuật mà LoRA áp dụng là ΔW không được học như một ma trận đầy đủ. Thay vào đó, LoRA biểu diễn nó dưới dạng tích của hai ma trận nhỏ hơn nhiều: trong đó A có kích thước r x d_in và B có kích thước d_out x r. Và r là hạng (rank) của bộ điều hợp (adapter). Lý do nó được gọi là phương pháp hạng thấp (low-rank) là vì r thường khá nhỏ, chẳng hạn như 4, 8, 16 hoặc 32. Điều này ngụ ý rằng LoRA không cho phép tinh chỉnh thực hiện một thay đổi tùy ý, đầy đủ chiều đối với W. Các cập nhật bị giới hạn trong một không gian con có chiều thấp hơn. Và chính sự hạn chế đó là nơi tạo ra hiệu quả. Điều này hoạt động trong thực tế vì nhiều điều chỉnh hạ nguồn không thực sự yêu cầu thay đổi mô hình theo mọi hướng có thể. Thông thường, sự thay đổi hữu ích nằm trong một không gian con nhỏ hơn nhiều. LoRA trực tiếp khai thác giả định này. Trong thực tế, điều này mang lại cho chúng ta một số lợi thế. Vì chúng ta có ít tham số có thể huấn luyện hơn, việc sử dụng bộ nhớ GPU, vốn bị tiêu thụ bởi các gradient và trạng thái bộ tối ưu hóa, có thể được giảm đáng kể. Chúng ta cũng có các điểm kiểm tra (checkpoint) nhỏ hơn, vì chúng ta không cần lưu một bản sao đầy đủ của mô hình 120 triệu tham số cho mỗi thử nghiệm; chúng ta chỉ lưu bộ điều hợp. Và nó làm giảm rủi ro quá khớp (overfitting), đặc biệt khi tập dữ liệu hạ nguồn không lớn. 3. Làm thế nào để thực hiện LoRA cho Chronos-2?