Lie Bracket và thứ tự dữ liệu: Hiểu sâu hơn về quá trình huấn luyện Neural Network

Bài viết phân tích khái niệm toán học Lie Bracket để đo lường ảnh hưởng của thứ tự các ví dụ huấn luyện đối với mô hình Machine Learning. Thông qua thực nghiệm trên mạng MXResNet và tập dữ liệu CelebA, tác giả chứng minh rằng việc thay đổi thứ tự dữ liệu có thể tạo ra sự khác biệt đáng kể trong tham số mô hình, đặc biệt là ở các lớp dự đoán phức tạp.

Một mô hình Machine Learning lý tưởng sẽ không quan tâm đến thứ tự xuất hiện của các ví dụ huấn luyện trong quá trình học. Từ góc độ Bayesian, tập dữ liệu huấn luyện là dữ liệu không có thứ tự và mọi cập nhật dựa trên việc thêm một ví dụ mới nên giao hoán với nhau. Tuy nhiên, đối với các mạng nơ-ron được huấn luyện bằng gradient descent, điều này không đúng. Bài viết này sẽ giải thích cách tính toán tác động của việc hoán đổi thứ tự hai ví dụ huấn luyện ở cấp độ tham số và trình bày kết quả tính toán các đại lượng này cho một mô hình convnet đơn giản.

Lie Bracket trong huấn luyện mô hình

Để bắt đầu, chúng ta cần nhận thức một thực tế toán học đơn giản: Nếu đang huấn luyện một mạng nơ-ron với tham số $\theta$, chúng ta có thể coi mỗi ví dụ huấn luyện là một trường vector. Cụ thể, nếu $x$ là một ví dụ huấn luyện và $\mathcal{L}^{(x)}$ là hàm mất mát (loss) cho ví dụ đó, trường vector tương ứng sẽ chỉ hướng mà các tham số cần được cập nhật.

Trong quan điểm này, việc cập nhật gradient cơ bản giống như việc di chuyển theo hướng của trường vector với tốc độ học (learning rate) là $\epsilon$. Một điều chúng ta có thể làm với các trường vector là tính toán Lie Bracket của chúng. Nếu $x, y$ là hai ví dụ huấn luyện, Lie Bracket của chúng cho biết sự phụ thuộc vào thứ tự của quá trình huấn luyện trên hai ví dụ này.

Chúng ta có thể diễn giải đại lượng này là sự khác biệt giữa việc cập nhật trên $x$ trước $y$ so với ngược lại. Khi mở rộng chuỗi Taylor đến cấp $O(\epsilon^2)$, chúng ta thấy rõ ý nghĩa của Lie Bracket: Nó cho biết sự khác biệt về vị trí cuối cùng của các tham số dựa trên thứ tự hiển thị của các ví dụ huấn luyện.

Thực nghiệm trên MXResNet và CelebA

Khi tìm kiếm các tài liệu nghiên cứu về Lie Bracket của các ví dụ huấn luyện, mô tả sớm nhất được tìm thấy là của Dherin vào năm 2023, người đã liên kết khả năng đo lường tính giao hoán của các cập nhật với các thiên kiến ẩn trong huấn luyện mạng nơ-ron. Trong bài viết này, tác giả đi xa hơn bằng cách tính toán trực tiếp giá trị bracket tại các điểm kiểm tra (checkpoints) khác nhau trong quá trình huấn luyện của một mô hình convnet thực tế.

Mô hình được sử dụng là bản sao của kiến trúc MXResNet (không có lớp attention) và được huấn luyện trên tập dữ liệu CelebA trong 5000 bước với kích thước batch là 32. Bộ tối ưu hóa là Adam. Tập dữ liệu CelebA có 40 thuộc tính nhị phân (ví dụ: Nam hoặc Tóc đen) và mạng nơ-ron có nhiệm vụ dự đoán từng thuộc tính này một cách độc lập và đồng thời.

Tại mỗi checkpoint, mô hình được đánh giá trên một batch gồm 32 ví dụ từ tập kiểm tra. Lie Bracket được tính toán chỉ giữa 6 ví dụ kiểm tra đầu tiên để giới hạn việc sử dụng dung lượng đĩa, vì mỗi Lie Bracket riêng lẻ có kích thước bằng một checkpoint đầy đủ của mô hình.

Kết quả và Phân tích

Khi xem xét các tensor mà Lie Bracket cung cấp cho mỗi tham số, độ lớn RMS của các tensor này thay đổi rất nhiều qua nhiều cấp độ độ lớn (tương tự như gradient của các tensor này). Tuy nhiên, nếu vẽ biểu đồ độ lớn RMS theo độ lớn gradient của mỗi tensor tham số trên thang log-log, chúng ta tìm thấy một mối tương quan chặt chẽ đáng kể giữa hai đại lượng này.

Điều này thú vị vì nó gợi ý rằng độ lớn của một Lie Bracket nhất định chủ yếu được xác định bởi:

Phần $v^{(x)}$ của biểu thức $(v^{(x)}\cdot \nabla_\theta) v^{(y)}$ (và tương tự cho thuật ngữ kia).
Các yếu tố độc lập với tensor tham số nào đang được xem xét, chẳng hạn như mức độ tiến bộ trong quá trình huấn luyện và mức độ "về bản chất không giao hoán" của các ví dụ huấn luyện đang được lấy bracket.

Nói cách khác, điều này gợi ý rằng với một bracket nhất định, phần $\nabla_\theta v^{(y)}$ có độ lớn tương đối không đổi trên tất cả các tham số của mạng.

Vấn đề với hàm mất mát và dự đoán màu tóc

Một quan sát thú vị là sau checkpoint 600 trở đi, các logit cho thuộc tính Tóc đen (Black_Hair) và Tóc nâu (Brown_Hair) có xu hướng có các delta lớn dưới hầu hết các Lie Bracket trong ma trận. Điều này có nghĩa là các dự đoán cho hai đặc điểm này thay đổi rất nhiều dựa trên thứ tự ví dụ.

Tác giả đưa ra giả thuyết rằng trong tập dữ liệu, tóc đen và tóc nâu không xuất hiện đồng thời. Ba kết hợp khác của các đặc điểm này có mặt, nhưng giá trị "True" cho cả hai cùng một lúc không nên xảy ra. Tuy nhiên, mô hình đưa ra các dự đoán riêng biệt cho từng đặc điểm và phân phối kết quả chỉ có thể là tích của các dự đoán riêng lẻ. Hàm mất mát ngầm định giả định rằng các dự đoán của mô hình phải độc lập với nhau.

Nếu mô hình không chắc chắn liệu ảnh của một người có tóc đen hay tóc nâu (điều này khá phổ biến tùy thuộc vào ánh sáng), nó sẽ dự đoán 50% cơ hội cho mỗi đặc điểm. Hàm mất mát diễn giải điều này là 25% cơ hội cho bất kỳ trong số 4 kết hợp, trong khi mô hình có thể muốn dự đoán sự chia tỷ lệ 50:50 giữa (Sai, Đúng) và (Đúng, Sai). Sự không đầy đủ của hàm mất mát này có thể là nguyên nhân khiến các delta logit cho các đặc điểm này có xu hướng lớn hơn so với các đặc điểm khác.