Năm cách tinh chỉnh (Fine-Tune) mô hình nền tảng chuỗi thời gian Chronos-2

Bài viết này hướng dẫn năm phương pháp tinh chỉnh mô hình Chronos-2 sử dụng kỹ thuật LoRA để vượt qua các hạn chế của dự báo zero-shot. Thông qua một nghiên cứu tình huống về dự báo nhu cầu điện, chúng ta sẽ thấy cách kết hợp dữ liệu danh mục đầu tư và các biến số ngoại sinh giúp cải thiện đáng kể độ chính xác.

Trong phần trước của series này, chúng tôi đã giới thiệu về Chronos-2, một mô hình nền tảng chuỗi thời gian (Time Series Foundation Model). Chúng ta đã thực hiện một nghiên cứu tình huống thực tế và thấy được khả năng của Chronos-2 ngay khi sử dụng "out-of-the-box" mà không cần huấn luyện thêm.

Tuy nhiên, như đã đề cập, khả năng zero-shot không phải lúc nào cũng đủ đáp ứng. Trong các trường hợp dữ liệu của bạn khác biệt so với dữ liệu huấn luyện trước, mô hình mắc lỗi có hệ thống, hoặc bạn có lượng lớn dữ liệu lịch sử cần tận dụng, thì tinh chỉnh (fine-tuning) là bước tiếp theo tất yếu.

Bài viết này sẽ tiếp tục nghiên cứu tình huống về dự báo nhu cầu điện tiêu thụ của các tòa nhà thương mại, đồng thời hướng dẫn qua năm kịch bản tinh chỉnh Chronos-2 khác nhau để tối ưu hóa hiệu suất dự báo.

Tổng quan dữ liệu tinh chỉnh

Tóm tắt nghiên cứu tình huống

Chúng ta sử dụng tập dữ liệu tổng hợp từ 8 tòa nhà thương mại ghi lại nhu cầu điện theo giờ. Nhiệm vụ là dự báo tổng tải điện một tuần trước, tức là 168 giờ. Dữ liệu được chia thành các cửa sổ thời gian liên tục: Train (12 tuần), Validation (1 tuần), Inference context (45 ngày) và Test (1 tuần).

Quá trình tinh chỉnh chỉ được phép nhìn thấy dữ liệu trong tập Train và Validation, đảm bảo không có sự rò rỉ dữ liệu (data leakage) sang tập kiểm tra.

Tinh chỉnh và LoRA: Khái niệm cốt lõi

Trước khi đi sâu vào các kịch bản, chúng ta cần hiểu briefly về tinh chỉnh và công nghệ LoRA (Low-Rank Adaptation).

Fine-tuning đơn giản là việc tiếp tục huấn luyện một mô hình đã được huấn luyện trước (pretrained) trên dữ liệu riêng của bạn. Tuy nhiên, việc cập nhật toàn bộ 120 triệu tham số của Chronos-2 là rất tốn kém về tính toán và bộ nhớ.

Đó là lý do LoRA ra đời. Thay vì cập nhật toàn bộ ma trận trọng số, LoRA đóng băng mô hình gốc và chỉ học một tập hợp nhỏ các tham số bổ sung (adapter) để điều chỉnh hành vi của mô hình. Điều này giúp giảm thiểu việc sử dụng GPU, giảm kích thước checkpoint và hạn chế rủi ro quá khớp (overfitting).

Đối với Chronos-2, cấu hình LoRA của chúng ta sẽ nhắm vào các phép chiếu Q, K, V, O trong các lớp attention và lớp nhúng bản vá đầu ra (output patch embedding).

Năm kịch bản tinh chỉnh Chronos-2

Chúng ta sẽ sử dụng cùng một mô hình cơ bản và cấu hình LoRA, chỉ thay đổi dữ liệu đầu vào cho từng trường hợp. Chỉ số đánh giá chính là Sai số phần trăm tuyệt đối có trọng số (WAPE).

1. Tinh chỉnh trên một tòa nhà đơn lẻ (Single-building adaptation)

Đây là thiết lập đơn giản nhất: chỉ quan tâm đến một tòa nhà (ví dụ: Building 03) và chỉ sử dụng dữ liệu lịch sử của chính tòa nhà đó.

Sau khi tinh chỉnh, WAPE của Building 03 giảm từ 8.3% (zero-shot) xuống còn 7.6%. Mặc dù có cải thiện, nhưng mức tăng trưởng này còn khiêm tốn.

Đồ thị mất mát khi huấn luyện

2. Tinh chỉnh danh mục đầu tư (Portfolio fine-tuning)

Trong thực tế, chúng ta thường có nhiều tài sản liên quan. Ở đây, chúng ta có 8 tòa nhà với các mô hình nhu cầu tương tự. Thay vì tinh chỉnh riêng lẻ, chúng ta gộp lịch sử của cả đội tàu tòa nhà để huấn luyện một bộ adapter chia sẻ.

Kết quả cho thấy tất cả 8 tòa nhà đều có cải thiện độ chính xác. Điều này chứng minh rằng việc học các mẫu hình chung (shared patterns) từ nhiều tài sản mang lại lợi ích chung.

3. Tinh chỉnh có thông tin biến số (Covariate-informed fine-tuning)

Cho đến nay, Chronos-2 chỉ nhìn thấy chuỗi thời gian mục tiêu (total_load_kw). Tuy nhiên, chúng ta biết các yếu tố driving như nhiệt độ ngoài trời, tỷ lệ lấp đầy, bức xạ mặt trời và chỉ số cuối tuần.

Trong kịch bản này, chúng ta cung cấp cả dữ liệu lịch sử và các biến số tương lai (known-future covariates) cho mô hình.

Kết quả rất ấn tượng: WAPE của Building 03 giảm từ 4.0% (zero-shot với biến số) xuống còn 2.8%. Đây là một bài học quan trọng: đôi khi chiến thắng lớn nhất không chỉ đến từ việc tinh chỉnh, mà từ việc tinh chỉnh mô hình với đúng thông tin đầu vào.

4. Kết hợp Danh mục đầu tư và Biến số (Portfolio + covariates)

Đây là thiết lập thực tế nhất: sử dụng cả dữ liệu từ nhiều tòa nhà và các biến số ngoại sinh.

Khi kết hợp cả hai yếu tố này, WAPE trung bình trên toàn bộ danh mục giảm từ 8.4% xuống còn 2.8%, tương ứng mức giảm tới 66.8%. Đây rõ ràng là phương pháp hiệu quả nhất trong số các kịch bản được thử nghiệm.

5. Chuyển đổi dữ liệu mới (Held-out transfer)

Câu hỏi đặt ra là: Nếu một tòa nhà mới vừa đi vào hoạt động và không có trong dữ liệu huấn luyện thì sao?

Chúng ta giữ lại Building 06 trong quá trình tinh chỉnh (không cho mô hình thấy dữ liệu này), sau đó áp dụng adapter được huấn luyện trên 7 tòa nhà còn lại cho Building 06.

Kết quả: WAPE giảm từ 4.2% xuống còn 3.1%. Điều này cho thấy adapter có khả năng học hỏi từ các tòa nhà liên quan và cải thiện dự báo ngay cả trên các tài sản mới mà nó chưa từng thấy, mang lại khả năng mở rộng (scalability) tuyệt vời cho triển khai thực tế.

Kết luận

So sánh kết quả các kịch bản

Sau khi đi qua năm kịch bản, mẫu hình kết quả rất rõ ràng:

Tinh chỉnh chỉ trên mục tiêu (target-only) mang lại lợi ích khiêm tốn.
Cung cấp các biến số tương lai (known-future covariates) mang lại bước nhảy vọt về hiệu suất.
Kết hợp danh mục đầu tư và biến số cho ra kết quả tốt nhất.
Kỹ thuật chuyển đổi (held-out transfer) hoạt động hiệu quả, cho phép triển khai mô hình trên các tài sản mới mà không cần tinh chỉnh lại ngay lập tức.

Đối với các kỹ sư dữ liệu và nhà phát triển AI, bài học rút ra là hãy tập trung vào việc thu thập và sử dụng đúng các đặc trưng (features) bên cạnh việc tinh chỉnh mô hình. Chronos-2 kết hợp với LoRA và dữ liệu chất lượng là một công cụ mạnh mẽ cho bất kỳ hệ thống dự báo chuỗi thời gian nào.