Tương quan không đồng nghĩa với nhân quả! Vậy thực chất nó có ý nghĩa gì?
Tương quan là một phép đo toán học chính xác về cách hai biến số di chuyển cùng nhau, chứ không phải là cảm tính hay bằng chứng cho mối quan hệ nguyên nhân - kết quả. Bài viết này sẽ giải thích bản chất của hệ số tương quan Pearson và những hạn chế quan trọng mà mọi người làm việc với dữ liệu cần nắm rõ.

Trước khi bước chân vào lĩnh vực khoa học dữ liệu, hẳn chúng ta đã từng nghe qua một câu nói nổi tiếng: "Tương quan không đồng nghĩa với nhân quả" (Correlation doesn’t imply causation). Đây là một cụm từ rất "bắt tai", và bạn chắc chắn đã từng lặp lại nó hoặc gật đầu đồng ý khi nghe người khác nói.
Đặc biệt là với những bộ dữ liệu dường như không liên quan đến nhau, việc gán ghép mối quan hệ nhân quả thường mang tính chất hài hước và thú vị. Hãy xem xét hai ví dụ thú vị sau:
- Các quốc gia có lượng tiêu thụ pizza cao thường có điểm số toán học tốt hơn.
- Số lượng kính râm bán ra càng nhiều thì số lượng cá mập tấn công con người càng tăng.
Nếu đó là tất cả thông tin bạn có, bạn sẽ kết luận gì? Ăn pizza có giúp bạn giỏi toán hơn không? Việc mua một chiếc kính râm mới có gây ra cuộc tấn công của cá mập không? Mặc dù việc suy nghĩ về điều này khá hài hước, nhưng câu trả lời cho những câu hỏi đó là "có lẽ không".
Tuy nhiên, đây là những ví dụ rất thực tế về một khái niệm: Tương quan (Correlation).
Vậy câu hỏi đáng đặt ra bây giờ là: Nếu tương quan không bằng nhân quả, thì nó có ý nghĩa gì? Đó chính là lúc mọi thứ trở nên mơ hồ. Bởi vì chúng ta thường coi tương quan như một ý niệm mơ hồ, nghĩ rằng nó có nghĩa là "chúng có liên quan đến nhau" hoặc "chúng di chuyển cùng nhau theo cách nào đó". Nhưng tương quan không chỉ là một cảm giác; nó là một phép đo toán học chính xác về cách hai biến số di chuyển cùng nhau.
Biểu đồ minh họa khái niệm tương quan
Tương quan thực chất là gì?
Khi mọi người nói hai thứ "có tương quan", họ thường có ý là một trong ba điều: chúng có vẻ liên quan, chúng di chuyển cùng nhau, hoặc có sự kết nối nào đó. Ở mức bề mặt, cả ba điều này không sai, nhưng chúng đang bỏ sót một số sắc thái quan trọng.
Tương quan không phải là một "cảm giác". Nó là một phép đo! Và giống như bất kỳ phép đo nào khác, nó trả lời một câu hỏi rất cụ thể.
Hãy tưởng tượng bạn thu thập dữ liệu về số giờ học của sinh viên và điểm thi của họ. Bạn vẽ biểu đồ và thấy một xu hướng đi lên. Bạn kết luận: "Khi thời gian học tăng, điểm số cũng có xu hướng tăng", đây là những gì chúng ta gọi là tương quan dương.
Ý tưởng cốt lõi mà hầu hết mọi người bỏ lỡ là: tương quan không phải về các giá trị thô, nó là về cách các biến số di chuyển tương đối so với trung bình của chúng.
Vậy, câu hỏi mà tương quan trả lời là: Hai biến số có di chuyển cùng nhau theo một cách nhất quán không?
Câu hỏi này có một trong ba câu trả lời:
- Lên + Lên → Tương quan dương
- Lên + Xuống → Tương quan âm
- Không có mẫu nhất quán → Không có tương quan
Toán học đằng sau tương quan
Để hiểu rõ hơn về tương quan, chúng ta sẽ sử dụng hệ số tương quan Pearson. Công thức của nó được định nghĩa là:
$$r = \frac{cov(X, Y)}{\sigma_X \cdot \sigma_Y}$$
Tôi biết công thức này nghe có vẻ phức tạp, nhưng hãy kiên nhẫn và cùng phân tích nó.
Bước 1: Đồng phương sai (Covariance) Đồng phương sai xem xét hai biến số di chuyển như thế nào so với trung bình của chúng. Ví dụ, nếu cả hai biến số đều trên mức trung bình, chúng ta nhận được đồng phương sai dương; nếu một cái trên và cái kia dưới, chúng ta nhận được đồng phương sai âm. Về cơ bản, nó trả lời: "Các biến số này có đồng thuận khi lệch khỏi trung bình không?"
Bước 2: Chuẩn hóa (Normalize) Đồng phương sai một mình rất khó giải thích vì nó phụ thuộc vào quy mô. Để khắc phục điều đó, chúng ta chia cho độ lệch chuẩn ($\sigma_X$ và $\sigma_Y$). Điều này thay đổi thang đo mọi thứ thành một phạm vi sạch sẽ: từ -1 đến 1.
Sau hai bước này, chúng ta có thể tính toán hệ số Pearson!
- +1 → Mối quan hệ dương hoàn hảo.
- 0 → Không có mối quan hệ tuyến tính.
- -1 → Mối quan hệ âm hoàn hảo.
Các loại tương quan khác nhau
Hệ số này đo lường mức độ nhất quán mà hai biến số này di chuyển cùng nhau — không phải chúng lớn đến mức nào, mà là chúng được sắp xếp tốt như thế nào.
Tương quan thực sự cho bạn biết điều gì?
Tương quan cho bạn biết: các biến số này di chuyển cùng nhau theo một cấu trúc có tổ chức. Nó cho chúng ta biết rằng có một mẫu số ở đây đáng để chú ý.
Tuy nhiên, nó KHÔNG cho bạn biết tại sao hoặc bằng cách nào chúng thực hiện điều đó, hay liệu cái này có gây ra cái kia không.
Ví dụ kinh điển về tương quan là doanh số bán kem và các vụ đuối nước. Chúng ta có thể thấy một mối quan hệ đi lên rõ ràng giữa hai biến số này... bán nhiều kem hơn dẫn đến nhiều người đuối nước hơn?...
Nhưng điều đó gây hiểu lầm. Vì yếu tố thực sự thúc đẩy là nhiệt độ: thời tiết nóng có nghĩa là bán nhiều kem hơn, nhiều người đi biển hơn và bơi nhiều hơn.
Vì vậy, mặc dù chúng ta có thể thấy rõ rằng tương quan là có thật, nhưng lời giải thích lại bị ẩn giấu.
Tương quan và tính phi tuyến
Hãy xem xét mối quan hệ này: $y = x^2$.
Rõ ràng đây là một mối quan hệ mạnh mẽ, khi $x$ tăng hoặc giảm, $y$ tăng! Nhưng nếu bạn tính toán tương quan, bạn sẽ nhận được một số gần bằng 0.
Đó là vì tương quan chỉ đo lường: Một đường thẳng khớp với mối quan hệ đó tốt như thế nào. Đây là một hạn chế quan trọng. Nếu mối quan hệ là cong, tương quan có thể thất bại, ngay cả khi tồn tại một mối quan hệ mạnh mẽ.
Mối quan hệ phi tuyến
Vì vậy, thay vì nghĩ: "Tương quan = mối quan hệ", tốt hơn nên nghĩ: "Tương quan = mức độ một đường thẳng giải thích mối quan hệ."
Hiểu lầm phổ biến
Sự mơ hồ của khái niệm tương quan dẫn đến một số hiểu lầm. Ba hiểu lầm rất phổ biến là:
- Giả định nhân quả: Chỉ vì hai biến số di chuyển cùng nhau không có nghĩa là cái này gây ra cái kia.
- Bỏ qua các biến ẩn: Có thể có một yếu tố thứ ba thúc đẩy cả hai (như nhiệt độ trong ví dụ về kem).
- Bỏ lỡ các mối quan hệ phi tuyến: Tương quan chỉ nhìn thấy các mẫu đường thẳng.
Bạn có thể tự hỏi, nếu tương quan là một thuật ngữ rất đơn giản không cho chúng ta biết nhiều, tại sao nó vẫn quan trọng?
Bởi vì nó cực kỳ hữu ích như một tín hiệu đầu tiên. Nó cho bạn biết: "Có vẻ như có điều gì đó thú vị đang xảy ra ở đây." Từ đó, bạn điều tra thêm. Tương quan đo lường sự sắp xếp; việc điều tra thêm cung cấp lời giải thích.
Kết luận
"Tương quan không đồng nghĩa với nhân quả." Điều đó là đúng. Nhưng đây là vấn đề: mọi người nghe điều này và nghĩ rằng: "Tương quan là vô nghĩa." Điều đó không đúng!
Tương quan đo lường cách các biến số di chuyển cùng nhau; nó nằm trong phạm vi từ -1 đến 1, nắm bắt các mối quan hệ tuyến tính, nhưng nó KHÔNG ngụ ý nhân quả.
Tương quan không gây hiểu lầm. Chúng ta chỉ kỳ vọng quá nhiều vào nó trong khi nó không cố gắng giải thích thế giới. Nó chỉ là một tín hiệu cho biết: "Này... cái này trông thú vị đấy."
Bây giờ, công việc thực sự mới bắt đầu, khi chúng ta điều tra xem tại sao điều này thực sự thú vị.
Bài viết liên quan

Công nghệ
Các nhà vật lý phát hiện những dạng băng phức tạp nhất từ trước đến nay
28 tháng 4, 2026

Công nghệ
BookStack chính thức rời bỏ GitHub để chuyển sang Codeberg vì lo ngại về AI và quyền riêng tư
28 tháng 4, 2026

Công nghệ
Vimeo xác nhận bị lộ dữ liệu người dùng sau vụ tấn công qua bên thứ ba
28 tháng 4, 2026
