
Từ dữ liệu thô đến các loại rủi ro
Hướng dẫn thực hành về phân loại trong chấm điểm tín dụng Bài đăng Từ dữ liệu thô đến các loại rủi ro xuất hiện đầu tiên trên Hướng tới khoa học dữ liệu.
Khoa học dữ liệu
Từ dữ liệu thô đến các loại rủi ro
Hướng dẫn thực hành về phân loại trong chấm điểm tín dụng
JUMBONG JUNIOR
Ngày 15 tháng 5 năm 2026
đọc 26 phút
Chia sẻ
Hình ảnh của Chatgpt
Điều gì sẽ xảy ra nếu mô hình chấm điểm tín dụng của bạn thất bại không phải vì thuật toán yếu mà vì các biến số không được chuẩn bị theo cách mà mô hình có thể hiểu đúng?
Trong mô hình rủi ro tín dụng, chúng tôi thường tập trung vào lựa chọn mô hình, số liệu hiệu suất, lựa chọn tính năng hoặc xác thực. Nhưng trước khi ước tính bất kỳ hệ số nào, một câu hỏi khác đáng được quan tâm: mỗi biến nên vào mô hình như thế nào?
Một biến thô không phải lúc nào cũng là sự thể hiện rủi ro tốt nhất.
Một biến liên tục có thể có mối quan hệ phi tuyến tính với mặc định. Một biến phân loại có thể chứa quá nhiều phương thức. Một số biến có thể bao gồm các giá trị ngoại lệ, giá trị bị thiếu, phân bố không ổn định hoặc các danh mục có rất ít quan sát. Nếu bỏ qua những vấn đề này, mô hình có thể trở nên không ổn định, khó diễn giải và kém tin cậy hơn trong quá trình sản xuất.
Đây là lúc việc phân loại trở nên quan trọng.
Phân loại, còn được gọi là phân loại thô, nhóm, phân loại hoặc gộp, bao gồm việc chuyển đổi các giá trị biến thô thành một số lượng nhỏ hơn các nhóm có ý nghĩa. Trong việc chấm điểm tín dụng, các nhóm này không được tạo ra chỉ để thuận tiện. Chúng được tạo ra để làm cho mối quan hệ giữa biến số và rủi ro vỡ nợ trở nên rõ ràng hơn, ổn định hơn và dễ sử dụng hơn trong mô hình.
Bước này đặc biệt hữu ích khi mô hình cuối cùng là hồi quy logistic, mô hình này vẫn được sử dụng rộng rãi trong việc chấm điểm tín dụng vì nó minh bạch, dễ hiểu và dễ chuyển thành thẻ điểm.
Đối với các biến phân loại, việc phân loại giúp giảm số lượng phương thức. Đối với các biến liên tục, nó giúp nắm bắt các mô hình rủi ro phi tuyến tính, giảm tác động của các ngoại lệ, xử lý các giá trị bị thiếu, cải thiện khả năng diễn giải và chuẩn bị các biến cho việc chuyển đổi Trọng số Bằng chứng.
Trong bài viết này, chúng ta sẽ nghiên cứu lý do tại sao phân loại là một bước thiết yếu trong việc chấm điểm tín dụng và cách nó có thể được sử dụng để chuyển các biến thô thành các loại rủi ro ổn định.
Trong Phần 1, chúng tôi giải thích tại sao việc phân loại lại hữu ích cho cả biến phân loại và biến liên tục, đặc biệt là trong bối cảnh hồi quy logistic.
Trong Phần 2, chúng tôi trình bày cách phân tích mối quan hệ giữa các biến liên tục và rủi ro vỡ nợ bằng cách sử dụng phân tích đơn điệu về đồ họa.
Trong Phần 3, chúng tôi giới thiệu các phương pháp phân loại chính, bao gồm phân nhóm khoảng cách bằng nhau, phân nhóm tần số bằng nhau, phân nhóm dựa trên Chi bình phương và phân nhóm dựa trên Trọng số của Bằng chứng.
Cuối cùng, trong Phần 4, chúng tôi tập trung vào việc rời rạc hóa các biến liên tục bằng cách sử dụng Trọng số Bằng chứng và chỉ ra cách tiếp cận này giúp chuẩn bị các biến cho mô hình chấm điểm tín dụng có thể hiểu được.
1. Tại sao việc phân loại lại quan trọng trong việc chấm điểm tín dụng
Khi xây dựng mô hình chấm điểm tín dụng, các biến có thể là phân loại hoặc liên tục.
Việc phân loại có thể hữu ích cho cả hai loại biến số, nhưng động cơ thì không giống nhau.
Đối với các biến phân loại, mục tiêu chính thường là giảm số lượng phương thức và loại nhóm có hành vi rủi ro tương tự.
Đối với các biến liên tục, mục tiêu thường là chuyển đổi thang số thô thành số lượng nhỏ hơn các loại rủi ro được sắp xếp.
Trong cả hai trường hợp, mục tiêu đều giống nhau: tạo ra các biến số có ý nghĩa thống kê, có thể giải thích được về mặt kinh tế và ổn định theo thời gian.
1.1 Phân loại làm giảm kích thước
Chúng ta hãy bắt đầu với các biến phân loại.
Giả sử chúng ta có một biến tên làindustry_sector và biến này có 50 giá trị khác nhau.
Nếu chúng ta sử dụng biến này trực tiếp trong mô hình hồi quy logistic, chúng ta cần tạo các biến giả.
Do có sự cộng tác nên một danh mục phải được sử dụng làm danh mục tham chiếu. Do đó, đối với 50 danh mục, chúng tôi cần:
50−1=49 biến giả.
Điều đó có nghĩa là mô hình phải ước tính 49 tham số cho chỉ một biến.
Điều này có thể nhanh chóng trở thành một vấn đề.
Một biến phân loại có quá nhiều phương thức có thể dẫn đến các hệ số không ổn định, khớp quá mức, độ ổn định kém, khó diễn giải và độ phức tạp cao hơn trong quá trình giám sát.
Bằng cách nhóm các danh mục tương tự lại với nhau, chúng tôi giảm số lượng tham số phải ước tính.
Ví dụ, thay vì giữ lại 50 ngành công nghiệp, chúng ta có thể nhóm chúng thành 5 hoặc 6 loại rủi ro. Các nhóm này có thể dựa trên tỷ lệ vỡ nợ được quan sát, chuyên môn kinh doanh, hạn chế về quy mô mẫu hoặc sự kết hợp của các tiêu chí này.
Kết quả là một mô hình nhỏ gọn hơn, ổn định hơn và dễ diễn giải hơn.
Vì vậy, một trong những lợi ích đầu tiên của việc phân loại là giảm kích thước.
1. 2. Phân loại giúp nắm bắt các mô hình rủi ro phi tuyến tính
Đối với các biến liên tục, việc phân loại cũng có thể rất hữu ích.
Nhưng trước khi quyết định có nên phân loại một biến liên tục hay không, trước tiên chúng ta nên hiểu mối quan hệ của nó với rủi ro vỡ nợ.
Một cách rất đơn giản để làm điều này là vẽ tỷ lệ vỡ nợ theo biến số.
Ví dụ: nếu chúng ta có một biến liên tục như biến thu nhập cá nhân, chúng ta có thể chia nó thành nhiều khoảng và tính tỷ lệ vỡ nợ trong mỗi khoảng.
Sau đó, chúng tôi vẽ:
các giá trị được đánh dấu của biến trên trục x,
tỷ lệ mặc định trên trục y.
Điều này cho phép chúng tôi kiểm tra trực quan mô hình rủi ro.
Nếu mối quan hệ đơn điệu thì biến số đó đã có xu hướng rủi ro rõ ràng.
Ví dụ:
Khi thu nhập tăng lên, tỷ lệ vỡ nợ giảm.
Khi lãi suất cho vay tăng, tỷ lệ vỡ nợ sẽ tăng.
Trong trường hợp này, mối quan hệ rất dễ hiểu.
Tuy nhiên, nếu mối quan hệ không đơn điệu thì tình hình sẽ trở nên phức tạp hơn.
Giả sử rủi ro vỡ nợ giảm ở mức thu nhập thấp đến trung bình nhưng sau đó lại tăng lên ở mức thu nhập rất cao. Một mô hình hồi quy logistic đơn giản có thể không nắm bắt được mẫu này một cách chính xác vì nó ước tính tác động tuyến tính giữa biến và tỷ lệ log của mặc định.
Mô hình hồi quy logistic có dạng sau:
log(P(Y=1|X)1−P(Y=




Nguồn tin: Towards Data Science — Tác giả: JUNIOR JUMBONG. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.