Học hỏi từ các tùy chọn cặp đôi: Giới thiệu về mô hình…

Cách chuyển đổi các lựa chọn đối đầu đơn giản thành xếp hạng xác suất Bài đăng Học hỏi từ các ưu tiên theo cặp: Giới thiệu về mô hình Bradley Terry lần đầu tiên xuất hiện trên Towards Data Science.

Học hỏi từ các ưu tiên theo cặp: Giới thiệu về Mô hình Bradley-Terry Cách chuyển các lựa chọn đối đầu đơn giản thành xếp hạng xác suất Sean Moran Ngày 27/5/2026 Đọc trong 28 phút Nguồn: hình ảnh của tác giả qua GPT-5.4. Phần lớn quá trình học thống kê giả định có sẵn các nhãn tuyệt đối. Ví dụ, một thực thể thuộc về một lớp, một tài liệu nhận được một điểm số, một quan sát được gán một xác suất, một sản phẩm được đánh giá trên một thang đo cố định. Tuy nhiên, trên thực tế, đánh giá của con người thường xuất hiện dưới dạng cục bộ và so sánh hơn. Con người có thể không biết liệu một câu trả lời có xứng đáng 7,4 trên 10 hay không, nhưng họ thường có thể nói câu trả lời nào trong hai câu trả lời tốt hơn. Họ có thể ngần ngại gán một điểm chất lượng tuyệt đối cho một ứng viên, nhưng họ có thể nói ứng viên nào trong hai ứng viên có vẻ mạnh hơn. Trong nhiều hệ thống thực tế, so sánh dễ dàng hơn nhiều so với hiệu chuẩn. Đây là bối cảnh mà mô hình Bradley-Terry trở nên đặc biệt hữu ích bằng cách cung cấp một cách toán học rõ ràng để học hỏi từ các ưu tiên theo cặp. Thay vì yêu cầu các đánh giá tuyệt đối, nó bắt đầu từ các kết quả đối đầu đơn giản và sử dụng chúng để suy ra một thứ tự tiềm ẩn trên các mục nhằm đưa ra một xếp hạng xác suất mạch lạc. Hình 1: Mô hình Bradley-Terry học các sức mạnh tiềm ẩn của các mục từ các so sánh theo cặp và sử dụng chúng để ước tính xác suất thắng giữa các mục. 📖 Nguồn: hình ảnh của tác giả qua GPT-5.4. Ý tưởng cốt lõi: Mỗi mục có một sức mạnh tiềm ẩn Mô hình bắt đầu với một giả định đơn giản. Mỗi mục i được liên kết với một tham số sức mạnh dương không quan sát được, được viết là πᵢ > 0. Khi mục i được so sánh với mục j, xác suất mà i được ưu tiên hơn j được định nghĩa là: và, một cách đối xứng, chúng ta có thể viết: Dạng này khá hấp dẫn vì nó vừa đơn giản vừa dễ hiểu. Nếu hai mục có sức mạnh bằng nhau, thì mỗi mục có xác suất 1/2 để thắng. Nếu πᵢ lớn hơn nhiều so với πⱼ, thì i trở nên có khả năng thắng cao hơn nhiều. Mô hình Bradley-Terry chuyển đổi các sức mạnh tương đối tiềm ẩn thành các xác suất theo cặp có thể quan sát được. Một cách thứ hai và thường tiện lợi hơn để viết cùng một mô hình là biểu thị mỗi sức mạnh dương dưới dạng số mũ của một điểm số thực: Thay thế điều này vào biểu thức xác suất cho ra: cũng có thể được viết là: Điều này làm cho một sự thật quan trọng trở nên rõ ràng. Xác suất mà i thắng j chỉ phụ thuộc vào sự khác biệt βᵢ − βⱼ. Do đó, Bradley-Terry có liên quan chặt chẽ đến mô hình logistic. Đây là cùng một ý tưởng cấu trúc xuất hiện trong hồi quy logistic. Trong hồi quy logistic, một kết quả nhị phân được mô hình hóa bằng cách áp dụng hàm logistic cho một điểm số tuyến tính. Trong Bradley-Terry, kết quả nhị phân là kết quả của một so sánh đối đầu, và điểm số liên quan đơn giản là sự khác biệt giữa hai sức mạnh tiềm ẩn. Tương đương, log-odds mà i thắng j là tuyến tính trong βᵢ − βⱼ, điều này làm cho Bradley-Terry trở thành một mô hình đặc biệt tự nhiên cho dữ liệu ưu tiên theo cặp. Cụ thể hơn, điều quan trọng không phải là mức độ tuyệt đối của điểm số của một mục, mà là vị trí của nó so với mục khác trong so sánh. Một ví dụ đơn giản Hãy xem xét ba câu trả lời ứng cử viên được tạo bởi một mô hình ngôn ngữ: A, B và C. Giả sử các người chú thích tạo ra các ưu tiên sau: A được ưu tiên hơn B A được ưu tiên hơn C B được ưu tiên hơn C Ngay cả khi không có bất kỳ xếp hạng số nào, một cấu trúc đã hiển thị rõ ràng. A xuất hiện mạnh nhất, B tiếp theo và C yếu nhất. Mô hình Bradley-Terry chính thức hóa trực giác này bằng cách tìm ra các sức mạnh tiềm ẩn khiến những kết quả quan sát được này trở nên hợp lý theo mô hình. Đây là bước khái niệm đầu tiên đáng chú ý. Mô hình không bắt đầu với các điểm số tổng thể rồi suy ra các kết quả theo cặp. Nó thực hiện điều ngược lại. Nó bắt đầu với các so sánh cục bộ và suy ra các điểm số tiềm ẩn giải thích tốt nhất các so sánh đó. **Điều chỉnh mô hình từ dữ liệu** Bây giờ, giả sử rằng các so sánh được lặp lại nhiều lần trên một tập hợp lớn hơn các mục. Đối với mỗi cặp có thứ tự (i, j), hãy để wᵢⱼ biểu thị số lần mục i thắng mục j, và để wⱼᵢ biểu thị số lần mục j thắng mục i. Mô hình Bradley-Terry điều chỉnh các tham số bằng cách chọn các giá trị sức mạnh làm cho dữ liệu so sánh quan sát được có khả năng xảy ra nhất. Điều này được thực hiện thông qua ước lượng khả năng xảy ra tối đa. Đối với một cặp mục i và j, đóng góp khả năng xảy ra là: Giải thích rất đơn giản. Nếu mục i thắng mục j nhiều lần, thì mô hình đã điều chỉnh sẽ gán xác suất cao cho việc i thắng j. Nếu j cũng thắng một số so sánh, thì mô hình cũng nên tính đến điều đó. Khả năng xảy ra thưởng cho các cài đặt tham số đặt xác suất cao cho các kết quả thực sự được quan sát. Trên tất cả các cặp mục, khả năng xảy ra đầy đủ được thu được bằng cách nhân các số hạng này với nhau. Trong thực tế, người ta làm việc với log-likelihood, vì nó dễ tối ưu hóa hơn. Log-likelihood là: Vấn đề điều chỉnh sau đó là tìm các giá trị tham số tối đa hóa đại lượng này. **Cái nhìn sâu hơn về điều chỉnh mô hình Bradley-Terry** Ở cấp độ trực giác, quá trình tối ưu hóa điều chỉnh các sức mạnh tiềm ẩn để các xác suất dự đoán của mô hình phù hợp với các kết quả so sánh thực nghiệm. Nếu một mục thắng thường xuyên, sức mạnh của nó sẽ tăng lên. Nếu nó thua thường xuyên, sức mạnh của nó sẽ giảm xuống. Nếu hai mục chia sẻ các cuộc đấu của chúng gần như đều nhau, sức mạnh của chúng sẽ tiến gần hơn. Đây là những hệ quả không chính thức. Cơ chế kỹ thuật đằng sau chúng là gradient của log-likelihood. Sử dụng tham số hóa πᵢ = exp(βᵢ), gradient đối với βᵢ có thể được viết là: Biểu thức này là tín hiệu học tập trung tâm trong mô hình Bradley-Terry, và nó có một cách giải thích rất rõ ràng. Số hạng đầu tiên, wᵢⱼ, là số lần thắng mà mục i thực sự đạt được so với mục j. Số hạng thứ hai, (wᵢⱼ + wⱼᵢ) P(i ≻ j), là số lần thắng mà mô hình hiện tại mong đợi mục i đạt được so với mục j. Vì vậy, gradient đang đo lường sự khác biệt giữa hai đại lượng: số lần thắng quan sát được và số lần thắng mong đợi.

Học hỏi từ các tùy chọn cặp đôi: Giới thiệu về mô hình Bradley-Terry