Show HN: JazzBench, một bộ tiêu chuẩn đánh giá khả năng suy…

URL bài viết: https://flatnine.co/blog/i-built-my-own-eval URL bình luận: https://news.ycombinator.com/item?id=48460776 Điểm: 2 Bình luận: 0

Mike Rubini Ngày 9/6/2026 #claude #evals #flatnine #jazz #llm-benchmarks Tại Tuần lễ AI, Gian Segato từ Anthropic đã nói một điều ngẫu nhiên mà tôi không thể bỏ qua. Ông ấy đề cập rằng rất nhiều người trong Anthropic giữ các đánh giá (eval) cá nhân của riêng họ cho Claude. Không phải các tiêu chuẩn công khai lớn. Một bài kiểm tra nhỏ, riêng tư, được điều chỉnh theo điều họ quan tâm cá nhân, mà họ tin tưởng hơn bất kỳ bảng xếp hạng nào để cho họ biết liệu một mô hình mới có thực sự tốt hơn hay không. Một câu nói đó đã sắp xếp lại cách tôi nghĩ về chất lượng mô hình. Vì vậy, tôi đã xây dựng của riêng mình. Tại sao một đánh giá cá nhân lại tốt hơn cảm nhận Hầu hết chúng ta đánh giá các mô hình bằng cảm nhận. Một bản phát hành mới ra mắt, bạn đưa một vài lời nhắc khó yêu thích của mình vào đó, bạn có một cảm nhận, bạn tiếp tục. Vấn đề là cảm nhận không thể mở rộng và cảm nhận có thể thay đổi. Bạn không thể nhớ mô hình trước đó đã xử lý cùng một lời nhắc chính xác như thế nào ba tháng trước, vì vậy "nó cảm thấy thông minh hơn" đang thực hiện một công việc không xứng đáng. Các tiêu chuẩn công khai có vấn đề ngược lại. Chúng nghiêm ngặt, nhưng chúng không phải của bạn. Chúng đo lường một thứ chung chung, chúng rò rỉ vào các tập dữ liệu huấn luyện và chúng bị gian lận. Một điểm số tăng trên bảng xếp hạng công khai cho bạn biết điều gì đó, nhưng hiếm khi là điều bạn thực sự quan tâm. Một đánh giá cá nhân dung hòa cả hai. Nó đủ nhỏ để bạn sở hữu mọi ví dụ. Nó đủ mang tính chủ quan để con số đó có ý nghĩa đối với riêng bạn. Và nó đủ riêng tư để không có mô hình nào được huấn luyện trên đó. Khi điểm số thay đổi, bạn học được điều gì đó thực sự. Vì vậy, tôi đã xây dựng của riêng mình, từ nhạc jazz Tôi quyết định xây dựng của mình từ một lĩnh vực mà tôi tin tưởng vào khả năng phán đoán của bản thân hơn hầu hết mọi người: nhạc jazz. Tôi gọi nó là JazzBench, và sự thật cơ bản là Charlie Parker. Nhiệm vụ, trong một câu: cho một vài hợp âm đầu tiên của một trong các bản solo của Parker, cộng với các thay đổi hợp âm tiếp theo, dự đoán các nốt thực tế mà Parker đã chơi trên mỗi hợp âm tiếp theo đó. Sau đó chấm điểm dự đoán đó so với những gì ông ấy thực sự đã làm trong bản ghi âm. Đó là một điều kỳ lạ khi yêu cầu một mô hình ngôn ngữ thực hiện, đó chính xác là lý do tại sao tôi thích nó. Tại sao nhạc jazz là một bài kiểm tra tốt Hầu hết mọi đánh giá hiện có đều kiểm tra khả năng suy luận bằng lời nói, toán học hoặc mã hóa. Đó là những vấn đề có ranh giới rõ ràng: có một câu trả lời đúng, và bạn chủ yếu đạt được nó bằng cách cẩn thận và không mắc lỗi. Ngẫu hứng là một loại nhận thức khác. Đó là: Có giới hạn. Các thay đổi hợp âm, khóa và thời gian đều được cố định. Bạn không thể chơi bất cứ thứ gì. Có thể đánh giá. Chúng ta có bản solo thực tế của Parker làm sự thật cơ bản, cộng với các phương pháp lý thuyết âm nhạc chính thức để chấm điểm mức độ gần đúng của một dự đoán. Giàu tính nhận thức. Đó là sự thỏa mãn ràng buộc, phong cách và sự sáng tạo cùng một lúc, trong thời gian thực, không có một câu trả lời đúng duy nhất nhưng có rất nhiều câu trả lời rõ ràng là sai. Sự kết hợp đó rất hiếm. Đó là loại phán đoán mềm, đa ràng buộc mà các chuyên gia con người thực hiện một cách trực giác và hầu như không có tiêu chuẩn nào cố gắng đo lường. Nếu tôi muốn biết liệu một mô hình có gu thẩm mỹ dưới áp lực hay không, đây là một công cụ thăm dò tốt hơn nhiều so với một bài toán chữ khác. Cách chấm điểm Vì không có một câu trả lời đúng duy nhất, bạn không thể chỉ kiểm tra sự trùng khớp chính xác. Vì vậy, mỗi dự đoán được chấm điểm so với những gì Parker đã chơi bằng cách sử dụng năm chỉ số lý thuyết âm nhạc: PC Jaccard: sự trùng lặp giữa các nốt mà mô hình dự đoán và các nốt mà Parker thực sự đã chơi. Khoảng cách vector quãng: khoảng cách giữa hai tập hợp nốt đó trong không gian quãng, không chỉ là những nốt chính xác mà chúng chia sẻ. Độ phức tạp và độ lệch bất hòa: lỗi trên các thước đo độ phức tạp và độ lệch bất hòa của Parker, vì vậy một phỏng đoán có thể là "sai nốt, đúng kết cấu". Phù hợp lớp Forte: liệu tập hợp được dự đoán có hình dạng trừu tượng giống như của Parker hay không, bất kể phép chuyển vị. Và nó đi kèm với ba đường cơ sở để đánh bại: lấy mẫu ngẫu nhiên từ các nốt mà Parker có xu hướng sử dụng trên hợp âm đó, luôn chơi tập hợp phổ biến nhất cho hợp âm đó, và một mô hình Markov bậc một trên phân đoạn trước. Tiêu chuẩn rất đơn giản. Nếu một mô hình tiên phong không thể đánh bại "chỉ chơi thứ phổ biến nhất", thì nó không thực sự ngẫu hứng, mà là trung bình hóa. Tôi đã chạy Haiku 4.5, Sonnet 4.6 và Opus 4.7 qua đó. Việc quan sát chúng nằm ở đâu so với các đường cơ sở đó cho tôi biết nhiều hơn về một mô hình so với hầu hết những gì tôi đọc vào ngày ra mắt. Những gì lô đầu tiên cho thấy Phiên bản một dòng: mọi cấp độ Claude (Haiku 0.370, Opus 0.400, Sonnet 0.402) đều đánh bại mọi đường cơ sở về sự chồng chéo lớp cao độ với Parker, nhưng Sonnet và Opus có kết quả thống kê tương đương, và không có mô hình nào trong số đó phù hợp với đường cơ sở tập hợp PC (pitch class) theo chế độ đơn giản về kết cấu quãng hoặc độ gần bất hòa. Claude đã học được từ vựng nốt của Parker, nhưng không phải sự kiềm chế hài hòa đặc trưng của ông. Tiêu đề, về sự chồng chéo nốt (Jaccard, càng cao càng tốt): Sonnet 0.402, Opus 0.400, Haiku 0.370, so với phổ biến nhất 0.355, Markov 0.327 và ngẫu nhiên 0.319. Mọi cấp độ Claude đều đánh bại mọi đường cơ sở trong việc chọn các nốt thực tế của Parker, với không có lỗi phân tích nào trên 399 lệnh gọi tác nhân. Nhưng điều thú vị nằm ở kết cấu, và có năm phát hiện mà tôi không mong đợi (bài viết đầy đủ có trong tài liệu, phần 8): Mọi cấp độ Claude đều đánh bại mọi đường cơ sở về lựa chọn nốt. Sonnet đạt khoảng 13% trên "chỉ chơi tập hợp phổ biến nhất" và 26% trên ngẫu nhiên, và thứ tự tương tự cũng đúng về độ phức tạp. Các mô hình thực sự chọn các nốt tốt hơn, không phải lừa dối. Đường cơ sở đơn giản nhất không thể đánh bại về kết cấu. "Luôn chơi tập hợp theo chế độ cho hợp âm này" vẫn thắng về khoảng cách quãng và độ bất hòa, bởi vì theo cấu trúc nó nằm ở trung tâm phân bố quãng của Parker. Claude chọn đúng nốt thường xuyên hơn, nhưng những phỏng đoán sai của nó hơi lệch khỏi trung tâm kết cấu của Parker. Sonnet và Opus hòa nhau. Khoảng cách Jaccard 0.002 là nhiễu. Việc mở rộng quy mô vượt qua Sonnet không mang lại lợi ích gì ở đây, điều này cho thấy hoặc một giới hạn trần khoảng 0.40 trong thiết lập này hoặc một nút thắt cổ chai mang tính đại diện, không phải vấn đề về năng lực thô. Tỷ lệ khớp chính xác giảm khi các mô hình lớn hơn. Haiku 0.034, Sonnet 0.026, Opus 0.015. Các mô hình lớn hơn chia sẻ m

Show HN: JazzBench, một bộ tiêu chuẩn đánh giá khả năng suy luận của LLM sử dụng kỹ thuật ứng tác nhạc jazz