Làm thế nào để lựa chọn tối ưu các bin (thanh) cho biểu đồ tần…

Độ phân giải tối ưu trong biểu đồ tần suất: Một phương pháp Bayes chặt chẽ để điều chỉnh mật độ Bài viết Cách chọn các bin tối ưu về mặt toán học cho biểu đồ tần suất của bạn xuất hiện lần đầu trên Towards Data Science.

Khoa học Dữ liệu Cách chọn các bin tối ưu cho biểu đồ tần suất bằng toán học Độ phân giải tối ưu trong biểu đồ tần suất: một phương pháp Bayesian chặt chẽ để điều chỉnh mật độ Fetze Pijlman Ngày 23/5/2026 10 phút đọc Chia sẻ Bên trái là mật độ tiêu chuẩn với độ phân giải cố định, phía trên bên phải là mật độ với độ phân giải thích ứng, phía dưới bên phải là mật độ với các bin thích ứng không đều và bao gồm định lượng độ không chắc chắn. Tóm tắt Bạn đã bao giờ tự hỏi làm thế nào để chọn các bin trong biểu đồ tần suất của mình chưa? Bạn đã bao giờ tự hỏi liệu có những lý do sâu xa hơn cho các lựa chọn vượt ra ngoài việc nó trông đẹp mắt chưa? Mặc dù biểu đồ tần suất là công cụ cơ bản nhất để trực quan hóa dữ liệu, việc thiết lập độ phân giải của chúng rất quan trọng, đặc biệt khi bản thân biểu đồ tần suất được sử dụng cho các phân tích tiếp theo. Biểu đồ tần suất thường được tính toán để trực quan hóa mật độ của dữ liệu. Trong bài đăng này, chúng ta khám phá toán học của việc điều chỉnh mật độ, đặc biệt xem xét cách các bin nên thu nhỏ khi tập dữ liệu của chúng ta tăng lên. Lấy cảm hứng từ các lĩnh vực liền kề như lý thuyết nhiễu loạn trong vật lý và khai triển Taylor trong toán học, chúng ta sẽ tìm ra một phương pháp chặt chẽ để xây dựng mật độ. Tất cả hình ảnh đều do tác giả cung cấp Bối cảnh Các phép xấp xỉ Trực giác rất đơn giản: bạn càng có nhiều dữ liệu, bạn càng có thể nhìn thấy nhiều chi tiết hơn. Nếu bạn đang xem một mẫu gồm mười quan sát, hai hoặc ba bin rộng có thể là tất cả những gì bạn có thể đủ khả năng trước khi hình ảnh trực quan của bạn trở thành một tập hợp thưa thớt các khoảng trống. Nhưng nếu bạn có mười triệu quan sát, những bin rộng đó bắt đầu giống như một bức ảnh pixel hóa có độ phân giải thấp. Bạn muốn "phóng to" bằng cách tăng số lượng bin. Tuy nhiên, câu hỏi đặt ra là: Chúng ta nên điều chỉnh độ phân giải này chính xác như thế nào? Trong vật lý, khi chúng ta đối mặt với một hệ thống quá phức tạp để giải quyết chính xác, chúng ta thường chuyển sang Lý thuyết nhiễu loạn (Perturbation Theory). Ví dụ, trong Điện động lực học lượng tử (QED), chúng ta xấp xỉ các tương tác phức tạp bằng cách khai triển chúng theo một hằng số ghép nhỏ, như điện tích electron e. "Cường độ tương tác" này cung cấp một hệ thống phân cấp tự nhiên cho các phép xấp xỉ của chúng ta. Nhưng đối với một biểu đồ tần suất, "điện tích" tương tự là gì? Có một tham số cơ bản nào chi phối sự tương tác giữa các điểm dữ liệu rời rạc của chúng ta và phân phối cơ bản mà chúng ta đang cố gắng ước tính không? Toán học cung cấp một con đường khác: Khai triển Taylor (Taylor Expansion). Nếu chúng ta giả định hàm mật độ cơ bản đủ trơn (phân tích), chúng ta có thể mô tả nó cục bộ bằng cách sử dụng các đạo hàm của nó. Điều này có vẻ là một hướng đi đầy hứa hẹn vì các bậc cao hơn có thể được chứng minh là biến mất. Mặc dù chúng ta có thể muốn chấp nhận một hạn chế đối với các phân phối phân tích, nhưng không rõ điều này dẫn đến một kích thước bin nhất định như thế nào. Ngoài ra, chúng ta có thể coi bài toán như một phép khai triển trong các hàm cơ sở (Basis Functions). Tương tự như việc biểu diễn một hàm liên tục từng phần bằng phép biến đổi Fourier hoặc đa thức Legendre, chúng ta có thể xem các bin của biểu đồ tần suất (histogram) như một tập hợp các hàm cơ sở. Sử dụng phương pháp này, chúng ta có thể xấp xỉ hàm theo L2. Tuy nhiên, phương pháp này cũng đặt ra những thách thức riêng. Làm thế nào để tính toán các hệ số cho các hàm này một cách hiệu quả? Và quan trọng hơn, làm thế nào để thỏa mãn các ràng buộc vật lý của một hàm mật độ xác suất? Không giống như chuỗi Fourier tổng quát, một hàm mật độ phải là xác định dương (strictly positive-definite) và được chuẩn hóa về một. Chúng ta sẽ thấy ở phần tiếp theo rằng phương pháp thu được từ lý thuyết thông tin có những khía cạnh tương tự như việc khai triển trong các hàm cơ sở. Lý thuyết thông tin Tiên nghiệm và Hậu nghiệm Để tìm hiểu về thống kê Bayes hoặc lý thuyết thông tin, độc giả có thể tham khảo (Murphy, 2022). Trong phương pháp Bayes, một mô hình P(X|θ), trong đó X là các đại lượng quan sát mà chúng ta muốn mô hình hóa và θ là các tham số của chúng ta, cũng bao gồm một phân phối tiên nghiệm P(θ|M) phản ánh niềm tin của chúng ta về phân phối trước khi dữ liệu được quan sát. Sau khi dữ liệu đã được quan sát, chúng ta có thể ước tính phân phối hậu nghiệm P(θ|X) P(θ|X) = P(X|θ)P(θ|M)/P(X) Quy trình này có tính toán học chặt chẽ vì nó an toàn 100% chống lại hiện tượng quá khớp (overfitting). Tuy nhiên, nó đòi hỏi một kỷ luật nghiêm ngặt: chúng ta không được phép chọn mô hình hoặc tiên nghiệm sau khi đã xem dữ liệu. Nếu chúng ta sử dụng dữ liệu để quyết định cấu trúc mô hình nào sẽ sử dụng, chúng ta sẽ phá vỡ logic cơ bản của suy luận. Mô hình có khả năng xảy ra cao nhất dựa trên dữ liệu so với việc trọng số hóa mô hình Chất lượng của một mô hình có thể được tính toán bằng cách xem xét độ bất ngờ của nó (xem ví dụ (Vries, 2026)) log P(X|M) = −độ bất ngờ = độ chính xác – độ phức tạp Các mô hình có số lượng tham số quá lớn (vì người ta có thể bị cám dỗ để đưa vào tất cả các loại tương tác giả định) có thể đạt được độ chính xác đáng kinh ngạc, nhưng chúng bị "triệt tiêu" bởi hình phạt về độ phức tạp của chính chúng. Mô hình lý tưởng không phải là mô hình chi tiết nhất; đó là mô hình nắm bắt được nhiều thông tin nhất với lượng thông tin không cần thiết ít nhất. Khi xem xét một tập hợp các mô hình, người ta có thể tính toán khả năng xảy ra của mỗi mô hình so với các mô hình đang được xem xét P(Mi | X) ~ P(X | Mi) P(Mi) Thật hấp dẫn khi chỉ chọn mô hình có xác suất cao nhất và tiếp tục. Nhưng cách tiếp cận "người thắng cuộc giành tất cả" này tiềm ẩn rủi ro: Biến động thống kê: Dữ liệu X có thể chứa một sự ngẫu nhiên khiến một mô hình không tối ưu tạm thời trông ưu việt hơn. Trọng lượng của số đông: Đôi khi, tổng của nhiều mô hình "ít có khả năng xảy ra" thực sự vượt trội hơn xác suất của mô hình "tốt nhất" duy nhất. Vì lý do này, một con đường mạnh mẽ hơn là đưa tất cả các mô hình về phía trước, trọng số hóa chúng theo xác suất của chúng. Điều quan trọng cần lưu ý là đây không phải là sự "pha trộn" của các sự thật khác nhau; chúng ta vẫn giả định chỉ có một mô hình thực sự đúng, nhưng chúng ta sử dụng toàn bộ phân phối các khả năng để tính đến sự không chắc chắn của chính chúng ta. Mật độ Mật độ sử dụng phương pháp Bayes Để coi một mật độ như một mô hình chính thức, chúng ta xem mỗi K bin của nó như một tham số.

Làm thế nào để lựa chọn tối ưu các bin (thanh) cho biểu đồ tần suất của bạn bằng phương pháp toán học