Tại sao chúng tôi nghĩ

Đặc biệt cảm ơn John Schulman vì rất nhiều phản hồi có giá trị và những chỉnh sửa trực tiếp cho bài đăng này. Tính toán thời gian thử nghiệm (Graves và cộng sự 2016, Ling và cộng sự 2017, Cobbe và cộng sự 2021) và Chuỗi suy nghĩ (CoT) (Wei và cộng sự 2022, Nye và cộng sự 2021), đã dẫn đến những cải tiến đáng kể về hiệu suất mô hình, đồng thời đặt ra nhiều câu hỏi nghiên cứu. Bài đăng này nhằm mục đích xem xét những phát triển gần đây về cách sử dụng hiệu quả tính toán thời gian thử nghiệm (tức là “thời gian suy nghĩ”) và lý do nó hữu ích.

Tại sao chúng tôi nghĩ Ngày: 1 tháng 5 năm 2025 | Thời gian đọc ước tính: 40 phút | Tác giả: Lilian Weng Mục lục Động lực Tương tự với tâm lý học Tính toán như một tài nguyên Mô hình biến tiềm ẩn Suy nghĩ bằng token Phân nhánh và chỉnh sửa Lấy mẫu song song Sửa đổi tuần tự RL để có lý luận tốt hơn Sử dụng công cụ bên ngoài Suy nghĩ trung thực Mô hình có thể hiện những gì nó nghĩ một cách trung thực không Áp lực tối ưu hóa đối với CoT: Tốt hay Xấu? Suy nghĩ trong không gian liên tục Kiến trúc lặp lại Thẻ suy nghĩ Suy nghĩ như những biến tiềm ẩn Tối đa hóa kỳ vọng Học lặp đi lặp lại Quy luật mở rộng thời gian suy nghĩ Có gì cho tương lai Trích dẫn Tài liệu tham khảo Đặc biệt cảm ơn John Schulman vì rất nhiều phản hồi có giá trị và những chỉnh sửa trực tiếp cho bài đăng này. Tính toán thời gian thử nghiệm (Graves và cộng sự 2016, Ling và cộng sự 2017, Cobbe và cộng sự 2021) và Chuỗi suy nghĩ (CoT) (Wei và cộng sự 2022, Nye và cộng sự 2021), đã dẫn đến những cải tiến đáng kể về hiệu suất mô hình, đồng thời đặt ra nhiều câu hỏi nghiên cứu. Bài đăng này nhằm mục đích xem xét những phát triển gần đây về cách sử dụng hiệu quả tính toán thời gian thử nghiệm (tức là “thời gian suy nghĩ”) và lý do nó hữu ích. Động lực # Việc cho phép các mô hình suy nghĩ lâu hơn có thể được thúc đẩy theo một số cách khác nhau. Tương tự với Tâm lý học # Ý tưởng cốt lõi có mối liên hệ sâu sắc với cách con người suy nghĩ. Con người chúng ta không thể đưa ra câu trả lời ngay lập tức cho câu hỏi “12345 nhân 56789 là bao nhiêu?”. Đúng hơn, việc dành thời gian cân nhắc và phân tích trước khi đi đến kết quả là điều đương nhiên, đặc biệt đối với những vấn đề phức tạp. Trong Tư duy, nhanh và chậm (Kahneman, 2013), Daniel Kahneman mô tả tư duy của con người thành hai phương thức, qua lăng kính của lý thuyết quá trình kép: Tư duy nhanh (Hệ thống 1) hoạt động nhanh chóng và tự động, được điều khiển bởi trực giác và cảm xúc trong khi đòi hỏi ít hoặc không cần nỗ lực. Tư duy chậm (Hệ thống 2) đòi hỏi tư duy logic, thận trọng và nỗ lực nhận thức đáng kể. Kiểu suy nghĩ này tiêu tốn nhiều năng lượng tinh thần hơn và đòi hỏi sự tham gia có chủ ý. Bởi vì tư duy Hệ thống 1 nhanh và dễ dàng nên cuối cùng nó thường trở thành động lực đưa ra quyết định chính, nhưng phải đánh đổi bằng tính chính xác và logic. Nó tự nhiên dựa vào các lối tắt tinh thần của bộ não chúng ta (tức là phương pháp phỏng đoán) và có thể dẫn đến sai sót và thành kiến. Bằng cách sống chậm lại một cách có ý thức và dành nhiều thời gian hơn để suy ngẫm, cải thiện và phân tích, chúng ta có thể áp dụng tư duy Hệ thống 2 để thách thức bản năng của mình và đưa ra những lựa chọn hợp lý hơn. Tính toán như một tài nguyên# Một quan điểm về học sâu là mạng lưới thần kinh có thể được đặc trưng bởi lượng tính toán và lưu trữ mà chúng có thể truy cập trong quá trình chuyển tiếp và nếu chúng ta tối ưu hóa chúng để giải quyết các vấn đề bằng cách sử dụng phương pháp giảm độ dốc, thì quá trình tối ưu hóa sẽ tìm ra cách sử dụng các tài nguyên này – chúng sẽ tìm ra cách tổ chức các tài nguyên này thành các mạch để tính toán và lưu trữ thông tin. Từ quan điểm này, nếu chúng ta thiết kế một kiến trúc hoặc hệ thống có thể thực hiện nhiều tính toán hơn trong thời gian thử nghiệm và huấn luyện nó để sử dụng hiệu quả tài nguyên này thì nó sẽ hoạt động tốt hơn. Trong các mô hình Transformer, số lượng tính toán (flop) mà mô hình thực hiện cho mỗi mã thông báo được tạo gần gấp 2 lần số lượng tham số. Đối với các mô hình thưa thớt như hỗn hợp các chuyên gia (MoE), chỉ một phần nhỏ tham số được sử dụng trong mỗi lần chuyển tiếp, do đó tính toán = 2 * tham số / độ thưa thớt, trong đó độ thưa thớt là tỷ lệ các chuyên gia hoạt động. Mặt khác, CoT cho phép mô hình thực hiện nhiều lần tính toán thất bại hơn cho mỗi mã thông báo của câu trả lời mà nó đang cố gắng tính toán. Trên thực tế, CoT có một đặc tính hay là nó cho phép mô hình sử dụng lượng điện toán thay đổi tùy thuộc vào độ khó của vấn đề. Mô hình biến tiềm ẩn# Một ý tưởng cổ điển trong học máy là xác định một mô hình xác suất với biến $z$ tiềm ẩn và biến hiển thị $y$, trong đó $y$ được cấp cho thuật toán học của chúng ta. Việc tính lề (tổng hợp) các giá trị có thể có của biến tiềm ẩn cho phép chúng ta biểu thị phân phối phong phú trên các biến hiển thị, $P(y) = \sum_{z \sim P(z)} P(y \mid z)$. Ví dụ: chúng ta có thể lập mô hình phân bổ cho các bài toán và lời giải bằng cách để $x$ biểu thị một phát biểu vấn đề, $y$ là câu trả lời hoặc bằng chứng đúng sự thật và $z$ là một quá trình suy nghĩ dạng tự do dẫn đến bằng chứng. Phân phối xác suất cận biên để tối ưu hóa sẽ là $P(y \mid x) = \sum_{z \sim p(z\mid x)} P(y \mid x, z)$ Phối cảnh biến tiềm ẩn đặc biệt hữu ích để hiểu các phương pháp liên quan đến việc thu thập nhiều CoT song song hoặc tìm kiếm trên CoT–các thuật toán này có thể được coi là lấy mẫu từ $P(z \mid x, y)$ sau. Chế độ xem này cũng gợi ý lợi ích của việc sử dụng mất nhật ký $\log P(y \mid x)$ làm mục tiêu mục tiêu để tối ưu hóa, vì mục tiêu mất nhật ký đã rất hiệu quả trong quá trình huấn luyện trước. Suy nghĩ bằng Token# Chiến lược tạo ra các bước trung gian trước khi tạo ra các câu trả lời ngắn, đặc biệt đối với các bài toán, đã được Ling và cộng sự khám phá. 2017, người đã giới thiệu bộ dữ liệu AQUA-RAT và sau đó được Cobbe et al mở rộng. 2021, người đã giới thiệu bộ dữ liệu Toán học cấp lớp (GSM). Cobbe và cộng sự. đào tạo một trình tạo với khả năng học tập có giám sát về các giải pháp do con người viết ra và các trình xác minh dự đoán tính chính xác của giải pháp ứng viên; sau đó họ có thể tìm kiếm các giải pháp này. Nye và cộng sự. (2021) đã thử nghiệm các mã thông báo tư duy trung gian dưới dạng “bàn di chuột” và Wei et al. (2022) đã đặt ra thuật ngữ chuỗi suy nghĩ (CoT) theo tiêu chuẩn hiện nay. Công việc ban đầu nhằm cải thiện khả năng suy luận CoT liên quan đến việc thực hiện học tập có giám sát dựa trên các dấu vết lý luận do con người viết hoặc các dấu vết do mô hình viết được lọc để đảm bảo tính chính xác của câu trả lời, trong đó dấu vết sau có thể được coi là một hình thức học tăng cường thô sơ (RL). Một số công trình khác phát hiện ra rằng người ta có thể tăng đáng kể hiệu suất toán học của các mô hình được điều chỉnh theo hướng dẫn bằng cách nhắc chúng một cách thích hợp, với "suy nghĩ từng bước" (Kojima và cộng sự 2022) hoặc nhiều hơn nữa.