Hồi Quy Tuyến Tính: Không Chỉ Là Vẽ Đường, Mà Là Vấn Đề Chiếu Hình

Thông thường, chúng ta nghĩ hồi quy tuyến tính là vẽ đường đi qua điểm dữ liệu để tối thiểu hóa sai số. Tuy nhiên, từ góc độ đại số tuyến tính, nó thực chất là tìm kiếm vector gần nhất đến đích mục tiêu trong không gian được tạo ra bởi các tính năng. Bài viết này sẽ giải thích cách chuyển đổi quan điểm từ không gian tính năng sang không gian cột, và tại sao phương pháp chiếu (projection) lại là chìa khóa để hiểu rõ "Phương trình chuẩn" (Normal Equation).

Hồi quy tuyến tính (Linear Regression) thường được hiểu một cách đơn giản là việc vẽ một đường thẳng đi qua các điểm dữ liệu trên biểu đồ phân tán (scatter plot). Chúng ta cố gắng tìm đường thẳng phù hợp nhất để tối thiểu hóa tổng các bình phương sai số (residuals). Tuy nhiên, trên thực tế, từ góc độ toán học, nó đang thực hiện một tác vụ hoàn toàn khác: tìm kiếm vector gần nhất đến giá trị mục tiêu trong không gian được tạo ra bởi các biến đầu vào. Để hiểu rõ vấn đề này, chúng ta cần thay đổi cách nhìn nhận dữ liệu từ không gian tính năng sang không gian cột (column space).

Thay Đổi Góc Nhìn: Từ Đường Thẳng Sang Không Gian Vector

Khi bắt đầu học về hồi quy tuyến tính, chúng ta thường vẽ biểu đồ giữa biến độc lập (ví dụ: kích thước ngôi nhà) và biến phụ thuộc (giá nhà). Mỗi điểm trên biểu đồ đại diện cho một hàng dữ liệu. Chúng ta cố gắng vẽ một đường thẳng đi qua các điểm này để dự đoán giá trị. Đây là cách tiếp cận thông thường gọi là không gian tính năng (feature space).

Tuy nhiên, nếu chúng ta thay đổi cách nhìn, coi mỗi cột dữ liệu (kích thước và giá) là một trục tọa độ, chúng ta sẽ có một không gian mới. Trong ví dụ này, giả sử có 3 ngôi nhà, chúng ta có thể coi ngôi nhà A là trục X, nhà B là trục Y, và nhà C là trục Z. Khi đó, tập hợp các giá trị kích thước của cả 3 nhà tạo thành một điểm, và tập hợp các giá trị giá cả tạo thành một điểm khác trong không gian 3 chiều này.

Biểu đồ 3D thể hiện các điểm dữ liệu trong không gian cột

Đây chính là không gian cột (column space) – nơi diễn ra các phép tính của hồi quy tuyến tính. Tại sao chúng ta lại cần chuyển sang cách nhìn này? Bởi vì khi số lượng tính năng (features) tăng lên (ví dụ: 50 hoặc 100 biến), việc áp dụng tính toán vi phân (phương pháp cổ điển) để tìm hệ số sẽ trở nên cực kỳ phức tạp và rối rắm. Việc chuyển sang không gian cột cho phép chúng ta sử dụng các khái niệm hình học, mà sự phức tạp của nó không thay đổi dù có 2 hay 2000 biến.

Hiểu Về Vector Và Độ Dài

Sau khi chuyển sang không gian cột, chúng ta coi mỗi cột dữ liệu là một vector. Chúng ta nối các điểm này với gốc tọa độ để tạo thành các vector. Điều này quan trọng vì một vector không chỉ có độ dài mà còn có hướng. Hướng của một vector phản ánh đúng "hình mẫu" (pattern) của biến đó trên toàn bộ dữ liệu.

Các vector biểu diễn kích thước và giá trị trong không gian 3 chiều

Ví dụ, vector kích thước (1, 2, 3) có một hướng xác định cho thấy mối quan hệ tỷ lệ giữa các ngôi nhà. Vector giá cả (4, 8, 9) có một hướng khác. Góc độ tạo bởi hai vector này đại diện cho những yếu tố ngoại lai (noise) trong dữ liệu thực tế – những yếu tố không được giải thích bởi kích thước ngôi nhà. Mục tiêu của hồi quy tuyến tính là tìm một hệ số (slopes) để "nhân" (scale) vector kích thước sao cho nó đi sát nhất có thể với vector giá cả.

Cộng Hợp Các Hướng Đi: Thêm Trục Cơ Sở (Base Vector)

Nếu chỉ có kích thước, chúng ta không thể dự đoán chính xác giá nhà. Nếu kích thước bằng 0, hệ số bất kỳ cũng cho ra giá 0, điều này không đúng. Mỗi ngôi nhà đều có một giá trị cơ bản (base value) cho dù diện tích có bao nhiêu (ví dụ: giá trị mảnh đất trống). Chúng ta gọi đây là hệ số chặn (intercept), hay trong không gian vector là vector cơ sở (base vector).

Khi thêm vector cơ sở, chúng ta có thêm một hướng di chuyển mới trong không gian. Kết quả của việc kết hợp vector cơ sở và vector kích thước (được nhân với các hệ số $\beta_0$ và $\beta_1$) tạo ra một mặt phẳng. Mọi điểm có thể dự đoán được đều nằm trên mặt phẳng này.

Mặt phẳng được tạo ra bởi việc kết hợp vector cơ sở và vector kích thước

Tìm Điểm Gần Nhất: Phép Chiếu Hình Học

Bây giờ, vấn đề trở nên rõ ràng hơn: chúng ta có một vector đích (giá cả) và một mặt phẳng chứa tất cả các điểm dự đoán có thể. Chúng ta cần tìm điểm trên mặt phẳng đó mà khoảng cách đến vector đích là ngắn nhất. Theo kiến thức hình học, đường đi ngắn nhất từ một điểm đến một mặt phẳng luôn là đường vuông góc (90 độ) với mặt phẳng đó.

Đây chính là ý tưởng cốt lõi của phương pháp bình phương tối thiểu (Least Squares). Thay vì cố gắng tối ưu hóa sai số thông qua tính toán vi phân (calculus), chúng ta đang tìm kiếm điểm có đường vuông góc nhất. Đường vuông góc này chính là vector sai số (residual vector), và nó nằm hoàn toàn trên mặt phẳng.

Kết Luận: Hồi Quy Tuyến Tính Là Phép Chiếu

Thay vì coi hồi quy tuyến tính là một bài toán tối ưu hóa phức tạp, chúng ta có thể xem nó đơn giản hơn: đó là một bài toán hình học về phép chiếu (projection). Chúng ta đang chiếu vector mục tiêu xuống mặt phẳng được tạo bởi các vector tính năng.

Dưới dạng ma trận, phép tính này được biểu diễn bằng Phương trình chuẩn (Normal Equation):

$$ \beta = (X^T X)^{-1} X^T y $$

Trong đó:

$X$ là ma trận các tính năng (bao gồm vector cơ sở).
$y$ là vector giá trị mục tiêu.
$\beta$ là vector chứa các hệ số (slope và intercept).

Bằng cách áp dụng phép chiếu hình học này, chúng ta không chỉ tìm ra được các giá trị hệ số chính xác mà còn hiểu sâu sắc hơn về cơ chế hoạt động bên trong của các mô hình học máy cơ bản nhất. Hồi quy tuyến tính không chỉ là vẽ đường thẳng, nó thực chất là phép chiếu vector.