Đọc khoảng cách hiệu suất đóng mở ngày nay

Đó là một trạng thái cân bằng hiện tại, rõ ràng rằng các mô hình mở sẽ luôn bắt kịp các mô hình đóng, nhưng khoảng cách này được xem như một con số duy nhất, một “khoảng cách”, che đậy một động lực mang tính sắc thái và quan trọng về khả năng mà các mô hình đang đáp ứng. Điểm chuẩn phổ biến nhất để nhận xét về khoảng cách này là Chỉ số Trí tuệ Phân tích Nhân tạo - một điểm chuẩn tổng hợp gồm ~10 đánh giá phụ mà họ duy trì theo thời gian để nắm bắt được “giới hạn” của các khả năng của mô hình ngôn ngữ hiện tại. Đặc biệt, tôi dành nhiều thời gian để tìm hiểu tại sao các động lực đưa vào chỉ số đó lại bị hiểu lầm bởi xu hướng tự nhiên là giảm hiệu suất và xu hướng xuống một con số. Ví dụ bao gồm: Điểm chuẩn phát triển như thế nào theo thời gian, ít nhiều trở nên tương quan với cách mọi người thực sự sử dụng mô hình, Hiệu suất trong thế giới thực của các mô hình khác nhau liên quan như thế nào đến thứ hạng điểm chuẩn của chúng và Chế độ đào tạo phát triển như thế nào theo thời gian để thay đổi các tiêu chuẩn nói trên. Điểm chuẩn tác nhân ở mức hợp lý, nhưng điểm chuẩn không còn đáng tin cậy như mức tương quan với hiệu suất trong thế giới thực. Một ví dụ điển hình cho vùng xám này là các điểm chuẩn đáng kinh ngạc của Gemini 3 và sự không liên quan đáng chú ý ở nơi các công cụ AI hiện đang được thử nghiệm và triển khai (các tác nhân). Những xu hướng này chỉ ra những sai sót rõ ràng và lâu dài trong các phép đo của chúng tôi. Chia sẻ Nguồn gốc của động lực này — sự tương quan giữa hiệu suất thực tế của mô hình và điểm chuẩn — là sự thay đổi liên tục của ngành. Vì tất cả các mô hình, tức là cả mô hình mở và mô hình đóng, đều phát triển theo thời gian, nên các chủ đề trọng tâm cho việc đo điểm chuẩn sẽ thay đổi khoảng 12 đến 18 tháng một lần. Tất cả các lĩnh vực quan tâm đều có các lĩnh vực đào tạo rất khác nhau được liên kết với chúng, đặc biệt là trong lĩnh vực đào tạo sau. Một mô hình duy nhất càng tồn tại lâu thì ngành càng đo lường hiệu suất tốt hơn. Trong kỷ nguyên mới của những cải tiến nhanh chóng sau đào tạo, niềm tin cá nhân của tôi vào các điểm chuẩn ở mức tương đối thấp. Sự phát triển của nhiệm vụ và mô hình LLM Ngay sau ChatGPT, trọng tâm là sự kết hợp giữa trò chuyện, toán học và mã đơn giản. Điều chỉnh hướng dẫn và RLHF chiếm ưu thế. Khả năng trò chuyện bão hòa và mờ nhạt nhanh chóng, khi đó toán học trở nên kém tập trung hơn. Cho đến năm 2025 và cho đến ngày nay, đặc biệt là khi các mô hình lý luận trở thành mặc định, trọng tâm sẽ chuyển sang mã hóa phức tạp hơn và các tác vụ tác nhân đơn giản hơn khác. Chúng ta đang ở giai đoạn cuối của kỷ nguyên đầu tiên này. Các công thức đào tạo gần đây đều bị chi phối bởi học tăng cường với phần thưởng có thể kiểm chứng (RLVR), nhưng các lĩnh vực áp dụng nó đã chuyển đổi đáng kể từ kiểm tra câu hỏi-trả lời cơ bản sang môi trường phức tạp. Những gì chúng ta đang thấy là các phòng thí nghiệm biên giới, đóng cửa đang đầu tư số tiền đáng kinh ngạc để làm chủ các trọng tâm hiện tại này - tức là mã, nhiệm vụ đầu cuối, v.v. - trong khi bắt đầu đẩy mạnh các nhiệm vụ công việc tri thức đa dạng hơn. Những nhiệm vụ mới hơn này bao gồm các lĩnh vực chuyên biệt, chẳng hạn như kế toán, luật, chăm sóc sức khỏe, v.v. Chúng vẫn mang tính chất tự động nhưng đòi hỏi nhiều chuyên môn hơn và thường tích hợp với phần mềm hiện có hoặc các công cụ dành riêng cho miền. Chúng tôi có bằng chứng rất hạn chế về sự cân bằng thực sự về khả năng của các lĩnh vực mới hơn này, nhưng đây là những lĩnh vực tôi đang tập trung vào khi nói rằng các mô hình mở sẽ gặp khó khăn để theo kịp. Vấn đề là việc đánh giá quy trình làm việc của mô hình ngôn ngữ phức tạp cũng là một vấn đề nghiên cứu đầy thách thức. Các nhiệm vụ ngày càng khó khăn hơn và dữ liệu cần thiết để thực hiện chúng cũng ngày càng riêng tư hơn (so với mã có rất nhiều mã trên GitHub). Các phòng thí nghiệm mô hình mở hàng đầu được hỗ trợ bởi động lực diễn ra trong ngành dữ liệu tương tự về mặt kinh tế với việc xây dựng các nhà máy sản xuất chip. Một số ít phòng thí nghiệm hàng đầu ở Hoa Kỳ trả những khoản tiền khổng lồ để mua môi trường và bộ dữ liệu mới, sau đó là các phòng thí nghiệm theo sau nhanh chóng (thường ở Trung Quốc), mua những thứ này sau với mức chiết khấu cao. Đây là một điểm bị bỏ sót quan trọng - mà các đòn bẩy mà các phòng thí nghiệm phi biên giới kéo để theo kịp thay đổi liên tục theo thời gian. Việc tập trung vào quá trình chưng cất như đòn bẩy chính cho sự tiến bộ của các người mẫu Trung Quốc phản ánh điểm mù đối với tầm quan trọng của môi trường RL đối với các chế độ đào tạo hiện tại. Nếu một môi trường có thể được xây dựng dưới dạng một đánh giá duy nhất trong Chỉ số Phân tích Nhân tạo hoặc phản ánh nó, thì hiện tại các phòng thí nghiệm của Trung Quốc sẽ có thể theo kịp. Interconnects AI là một ấn phẩm được người đọc hỗ trợ. Hãy cân nhắc việc trở thành người đăng ký. Áp lực kinh tế phải tái tạo lại “biên giới” Câu hỏi đáng đặt ra là: Nhóm nhiệm vụ hiện tại quan trọng đến mức nào (một lần nữa, nhiệm vụ mã hóa và thiết bị đầu cuối), trong đó những công việc như OpenAI và Anthropic có lợi thế lớn về việc áp dụng kinh doanh so với các mô hình trọng lượng mở hàng đầu (và thậm chí cả Google), có quan trọng để duy trì số liệu doanh thu không? Để duy trì những con số và quỹ đạo tăng trưởng kỷ lục này, cần phải duy trì lợi thế có ý nghĩa trong hoạt động. Nhiều công ty muốn giảm chi phí sử dụng token nếu họ có thể hoán đổi theo mô hình mở, rẻ hơn nhiều. Nếu khả năng mã hóa tác nhân bão hòa và “biên giới” của hiệu suất AI chuyển sang nơi khác, thì phần lớn doanh thu của doanh nghiệp có thể phụ thuộc vào các mối quan hệ khách hàng được hình thành tốt, quán tính và phát triển sản phẩm tốt hơn, thay vì các mô hình có bước nhảy vọt tốt hơn. Vị trí bấp bênh này là điều mà tôi mô tả khi các phòng thí nghiệm ở tuyến đầu cần liên tục đổi mới bản thân cũng như triển vọng của lĩnh vực này để kiếm tiền từ việc xây dựng cơ sở hạ tầng AI rộng lớn. Tôi vẫn có xu hướng nghiêng về phía rằng việc xây dựng sẽ có giá trị và Anthropic và OpenAI sẽ là những doanh nghiệp có lợi nhuận cao về mặt thiên văn, vì vậy tôi coi đây là niềm tin về việc sự kết hợp giữa chúng sẽ tiếp tục mở ra các trường hợp sử dụng hấp dẫn, mới, có giá trị cho các mô hình và rằng các điểm chuẩn mà các mô hình mở đang đạt đến không phải là một tín hiệu hoàn chỉnh. Tôi hoạt động với một loại giả định trong đó các mô hình mở hàng đầu từ Trung Quốc tập trung nhiều hơn vào điểm chuẩn so với các phòng thí nghiệm đóng cửa hàng đầu ở Hoa Kỳ. Họ được khuyến khích làm như vậy -