Phân tích tính đơn điệu và ổn định của biến trong mô hình chấm điểm tín dụng với Python
Xây dựng mô hình chấm điểm tín dụng không chỉ đơn thuần là huấn luyện thuật toán mà còn cần kiểm tra kỹ lưỡng tính đơn điệu và ổn định của các biến số. Bài viết này sẽ hướng dẫn bạn cách sử dụng Python để đánh giá xu hướng rủi ro và áp dụng chỉ số ổn định dân số (PSI) nhằm đảm bảo mô hình hoạt động bền vững theo thời gian.

Xây dựng một mô hình chấm điểm tín dụng (credit scoring) hiệu quả không chỉ dừng lại ở việc huấn luyện một thuật toán máy học và đánh giá hiệu suất thông qua các chỉ số như AUC hay Gini. Nhiều người mới bắt đầu thường vội vàng bước vào giai đoạn huấn luyện mà bỏ qua các bước quan trọng nhằm xác định xem mô hình có thực sự mạnh mẽ và có thể giải thích được hay không.
Trong rủi ro tín dụng, chất lượng của một mô hình phụ thuộc rất lớn vào các biến số đầu vào. Một biến số có vẻ dự đoán tốt trong tập huấn luyện có thể hoạt động không nhất quán theo thời gian hoặc trên các nhóm dân số khác nhau. Nếu bỏ qua điều này, chúng ta sẽ gặp rủi ro xây dựng một mô hình hoạt động tốt trong môi trường phát triển nhưng thất bại khi đưa vào vận hành thực tế.
Minh họa dữ liệu và mô hình
Điều này đặt ra ba câu hỏi cơ bản: Các biến được chọn có thể hiện rủi ro tín dụng không đổi theo thời gian không? Xu hướng rủi ro này có giữ ổn định qua các năm không? Phân phối của các biến này có so sánh được giữa các tập huấn luyện, kiểm tra và ngoài thời gian (out-of-time) không?
Bài viết này sẽ định nghĩa các khái niệm về tính đơn điệu (monotonicity) và tính ổn định (stability) trong chấm điểm tín dụng, áp dụng chúng vào bảy biến số đã chọn, và đánh giá sự ổn định của tập dữ liệu bằng cách sử dụng Chỉ số ổn định dân số (Population Stability Index - PSI).
Định nghĩa tính Đơn điệu và Ổn định
Tính đơn điệu đề cập đến việc phân tích hướng đi của rủi ro của một biến số đã được chọn trước. Đối với một biến liên tục, nó trả lời câu hỏi: khi giá trị của biến tăng hoặc giảm, rủi ro tín dụng có tăng hoặc giảm tương ứng không?
Ví dụ, trong ngữ cảnh doanh nghiệp, chúng ta mong đợi rằng khi doanh thu của công ty tăng lên, tình hình tài chính của họ sẽ được cải thiện. Ngược lại, khi doanh thu giảm, tình hình tài chính sẽ suy giảm. Đây chính là hướng đi của rủi ro.
Tính ổn định đi sâu hơn một bước. Nó trả lời câu hỏi: hướng đi rủi ro này có được tuân thủ nhất quán qua nhiều năm không, hay chúng ta quan sát thấy sự đảo ngược rủi ro? Sự đảo ngược rủi ro xảy ra khi mặc dù doanh thu tăng nhưng tình hình tài chính lại suy giảm — hoặc ngược lại. Tính ổn định mang lại cái nhìn dài hạn về hành vi của biến số và hỗ trợ việc ra quyết định sáng suốt.
Phân tích xu hướng rủi ro
Trong chấm điểm tín dụng, chúng ta nghiên cứu cả tính đơn điệu của các biến số và sự ổn định của chúng theo thời gian. Chúng ta cũng nghiên cứu sự ổn định của phân phối biến số giữa các năm liên tiếp và giữa các tập dữ liệu train, test và out-of-time.
Cách tiếp cận thực tế
Trong thực tế, chúng ta đánh giá tỷ lệ vỡ nợ thực nghiệm theo thời gian cho các giá trị đã định nghĩa của các biến giải thích. Đối với các giá trị chúng ta định nghĩa là rủi ro, chúng ta mong đợi tỷ lệ vỡ nợ cao hơn. Đối với các giá trị ít rủi ro hơn, tỷ lệ vỡ nợ sẽ thấp hơn.
Đối với các biến liên tục, chúng ta rời rạc hóa chúng bằng cách sử dụng các phân vị (quantiles). Sử dụng các phần tử (terciles) — Q1, Q2 và Q3 — chúng ta tính toán tỷ lệ vỡ nợ của mỗi nhóm cho mỗi năm. Nếu một biến có dấu "+", tỷ lệ vỡ nợ ở Q1 phải thấp hơn ở Q2, và Q2 phải thấp hơn Q3 trong mọi giai đoạn. Về mặt đồ thị, đường cong của Q3 sẽ nằm trên đường cong của Q2, và Q2 nằm trên Q1.
Đối với các biến phân loại, chúng ta tính toán tỷ lệ vỡ nợ của từng danh mục cho từng giai đoạn. Đường cong của danh mục rủi ro nhất phải luôn nằm trên đường cong của tất cả các danh mục khác.
Áp dụng cho 7 biến số đã chọn
Chúng ta áp dụng khung này cho bảy biến số đã được chọn trước. Quá trình phân tích tính đơn điệu dẫn đến việc loại bỏ biến person_age (tuổi), vì sự ổn định rủi ro của nó không được tuân thủ (có sự đảo ngược rủi ro). Sáu biến số còn lại được giữ lại cho bước tiếp theo.
Các biến số bao gồm: person_income (thu nhập), person_emp_length (thời gian làm việc), loan_int_rate (lãi suất vay), loan_percent_income (tỷ lệ vay trên thu nhập), person_home_ownership (tình trạng sở hữu nhà) và cb_person_default_on_file (lịch sử vỡ nợ).
Đánh giá sự ổn định của tập dữ liệu với PSI
Bây giờ, chúng ta nghiên cứu sự ổn định của phân phối biến số. Mục tiêu là đảm bảo rằng phân phối của mỗi biến số vẫn nhất quán qua các năm và giữa các tập dữ liệu train, test và out-of-time.
Chúng ta sử dụng PSI — một chỉ số thực tế được sử dụng rộng rãi trong chấm điểm tín dụng — để đo lường các thay đổi về phân phối. Nó áp dụng trực tiếp cho các biến phân loại. Đối với các biến liên tục, chúng ta rời rạc hóa chúng trước (sử dụng terciles trong bài viết này).
Công thức tính PSI như sau:
PSI = Σ (pᵢ – qᵢ) * ln(pᵢ / qᵢ)
Trong đó pᵢ và qᵢ lần lượt là tỷ lệ trong nhóm i của tập dữ liệu tham chiếu và tập dữ liệu mục tiêu. Khi chỉ số này dưới 10%, biến số được coi là ổn định. Khi dưới 25%, không có sự thay đổi đáng kể nào được quan sát thấy.
Chỉ số ổn định dân số PSI
Kết quả đánh giá cho thấy tất cả các biến số đều ổn định theo thời gian — không có vi phạm ngưỡng nào được quan sát thấy (PSI dưới 10%). Điều này xác nhận rằng các yếu tố rủi ro đã chọn là ổn định giữa tập ước tính và tập đánh giá.
Kết luận
Trong bài viết này, tôi đã trình bày một khung nghiêm ngặt để nghiên cứu tính đơn điệu và ổn định trong một mô hình chấm điểm. Tôi đã chỉ ra cách gán hướng rủi ro cho mỗi biến, cách xác thực hướng này qua các năm và cách phát hiện các thay đổi phân phối bằng PSI. Bước này — thường bị bỏ qua trong thực tế — là rất cần thiết để đảm bảo mô hình được xây dựng không chỉ hoạt động tốt mà còn mạnh mẽ, có thể giải thích và đáng tin cậy theo thời gian.
Trong bài viết tiếp theo, tôi sẽ trình bày việc ước tính mô hình chấm điểm cuối cùng bằng cách sử dụng sáu biến số đã được giữ lại.
Bài viết liên quan

Phần mềm
Proxy-Pointer RAG: Cách tiếp cận mới cho câu trả lời đa phương thức không cần Multimodal Embeddings
30 tháng 4, 2026

Phần mềm
Light Phone mở cửa cho nhà phát triển: Biến điện thoại "ngu" trở nên hữu ích hơn với các công cụ tùy chỉnh
30 tháng 4, 2026

Phần mềm
Claude Code từ chối hoặc tính phí cao hơn khi phát hiện từ khóa "OpenClaw" trong commit
30 tháng 4, 2026
