Chuỗi suy nghĩ và hơn thế nữa: LLM thực sự học cách suy luận…

"Khả năng suy luận từng bước không chỉ là một tính năng. Nó có thể là sự khác biệt giữa một mô hình ngôn ngữ nghe có vẻ thông minh và một mô hình thực sự thông minh." Giới thiệu: Khi AI bắt đầu suy nghĩ Vào năm 2022, các nhà nghiên cứu tại Google Brain đã xuất bản một bài báo có tiêu đề "Chuỗi tư duy thúc đẩy suy luận trong các mô hình ngôn ngữ lớn". Vào thời điểm đó, không ai có thể dự đoán được nó sẽ đánh dấu sự khởi đầu của một sự thay đổi nhằm định hình lại toàn bộ lĩnh vực AI. Ý tưởng rất đơn giản: thay vì yêu cầu người mẫu trả lời trực tiếp, hãy cho người mẫu thời gian để suy nghĩ. Yêu cầu nó viết ra các bước trung gian. Độ chính xác được cải thiện đáng kể. Bài báo đó hiện có hơn 10.000 trích dẫn. Nhưng câu hỏi nó nêu ra chưa bao giờ được trả lời đầy đủ: LLM có thực sự nghĩ không? Hay họ tạo ra một ảo tưởng suy nghĩ rất thuyết phục? Đó là những gì blog này nói về. Và với tư cách là một người đang chuẩn bị lấy bằng Tiến sĩ về AI, đó là câu hỏi mà tôi liên tục quay lại. Phần 1: Chuỗi tư duy là gì? Nhắc nhở tiêu chuẩn so với Nhắc nhở CoT Hãy tưởng tượng hỏi một người mẫu điều này: "Roger có 5 quả bóng tennis. Anh ấy mua thêm 2 hộp bóng tennis. Mỗi hộp có 3 quả bóng tennis. Bây giờ anh ấy có bao nhiêu quả?" Với lời nhắc tiêu chuẩn, mô hình sẽ nhảy thẳng tới: "11" Với sự nhắc nhở theo chuỗi suy nghĩ, mô hình sẽ xử lý vấn đề đó trước tiên: Roger bắt đầu với 5 quả bóng. 2 lon × 3 quả bóng = 6 quả bóng. 5 + 6 = 11 quả bóng. Trả lời: 11 Cả hai đều nhận được câu trả lời giống nhau. Vì vậy, vấn đề là gì? Khoảng cách xuất hiện ở những bài toán khó hơn. Các mô hình suy luận thông qua các bước sẽ hoạt động tốt hơn những mô hình trả lời trực tiếp về toán học nhiều bước, lý luận biểu tượng và các vấn đề thông thường. Nhiệm vụ càng phức tạp thì sự khác biệt càng lớn. Zero-Shot CoT: Một cụm từ thay đổi mọi thứ Cùng năm đó, các nhà nghiên cứu còn phát hiện ra điều còn đáng ngạc nhiên hơn. Chỉ cần thêm cụm từ "Hãy suy nghĩ từng bước" vào câu hỏi mà không cần bất kỳ ví dụ nào, độ chính xác của lý luận đã được cải thiện đáng kể. Không có cuộc biểu tình. Không tinh chỉnh. Chỉ năm chữ đó thôi. Điều này được gọi là CoT không bắn. Và câu hỏi tiếp theo rõ ràng là: tại sao điều này lại hiệu quả? Thử nghiệm của riêng tôi: Thử nghiệm CoT trên GSM8K Trước khi đi sâu hơn vào lý thuyết, tôi muốn tự mình kiểm tra điều này. Vì vậy, tôi đã chạy một thử nghiệm nhỏ bằng cách sử dụng mô hình nguồn mở trên điểm chuẩn tiêu chuẩn. Thiết lập: Model: Qwen 2.5 1.5B Instruct (miễn phí, chạy trên GPU Kaggle) Bộ dữ liệu: GSM8K (các bài toán phổ thông) Kiểm tra: Lời nhắc thông thường và "Hãy suy nghĩ từng bước một" Mẫu: 10 bài toán Kết quả: Cách tiếp cận đúng Độ chính xác Không có CoT 2/10 20% Với CoT 10/3 30% [Kết quả CoT và No-CoT trên GSM8K] Ngay cả trên một mô hình nhỏ hơn khoảng 360 lần so với mô hình được sử dụng trong bài báo gốc, sự cải tiến vẫn xuất hiện. Một cụm từ duy nhất đã thay đổi độ chính xác thêm 10%. Một số điều nổi bật từ việc phân tích từng vấn đề: Vấn đề 1 đã được giải quyết chính xác bằng CoT, nhưng không phải không có nó. Vấn đề 7 cho thấy mô hình tương tự. Vấn đề 4 đã được giải quyết một cách chính xác. Nhưng Vấn đề 6 thực sự đã được giải quyết một cách chính xác mà không cần đến CoT và không chính xác với nó. Mô hình đã suy nghĩ quá nhiều về một phép tính đơn giản và đã sai. Quan sát cuối cùng đó quan trọng và liên quan đến điều tôi thảo luận ở Phần 4. Lưu ý nhanh: con số chính xác tổng thể có vẻ thấp vì mô hình này rất nhỏ so với những gì giấy ban đầu được sử dụng. Vấn đề ở đây là sự khác biệt tương đối chứ không phải con số tuyệt đối. Phần 2: Điều gì thực sự đang xảy ra bên trong mô hình? Hơn cả việc khớp mẫu Những lời chỉ trích phổ biến về LLM là chúng có tính năng tự động hoàn thành phức tạp. Chúng khớp với các mẫu từ dữ liệu huấn luyện hơn là lý luận thực sự. Lời chỉ trích này không hoàn toàn sai nhưng chưa đầy đủ. Từ năm 2023 đến năm 2024, các nhà nghiên cứu thực hiện công việc giải thích cơ học đã tìm thấy một số điều thú vị bên trong những mô hình này. LLM chứa các mạch lý luận cụ thể: các nhóm tế bào thần kinh và đầu chú ý phối hợp với nhau để thực hiện các hoạt động logic. Họ sử dụng thứ gọi là đầu cảm ứng, là các mẫu chú ý giúp xác định trình tự trong ngữ cảnh và dự đoán điều gì sẽ xảy ra tiếp theo. Một số mô hình đã phát triển các mô hình thế giới tiềm ẩn, nghĩa là chúng thể hiện nội bộ các khái niệm như mối quan hệ không gian, thời gian và quan hệ nhân quả. Không ai trong số này được lập trình rõ ràng. Nó xuất hiện từ việc đào tạo về văn bản. Bức tranh thu được từ nghiên cứu này thú vị hơn việc "chỉ khớp mẫu". Những mô hình này đã phát triển các cấu trúc bên trong hỗ trợ hành vi giống như lý luận. Liệu điều đó có tạo nên lý luận thực sự hay không là một câu hỏi triết học riêng biệt, nhưng rõ ràng nó không chỉ là tự động hoàn thành. Mô hình khen thưởng quy trình: Chấm điểm công việc, không chỉ là câu trả lời Đây là một ý tưởng đã thay đổi cách đào tạo các mô hình lý luận. Thay vì chỉ chấm điểm câu trả lời cuối cùng, điều gì sẽ xảy ra nếu bạn chấm điểm từng bước suy luận riêng lẻ? Đó là cốt lõi của Mô hình khen thưởng quy trình (PRM). Trong đào tạo tiêu chuẩn, mô hình đưa ra câu trả lời và được cho biết câu trả lời đó đúng hay sai. Trong đào tạo dựa trên PRM, mỗi bước trong chuỗi lý luận sẽ có điểm riêng. Một bước sai sẽ bị gắn cờ sớm trước khi nó làm hỏng phần còn lại của giải pháp. Bài báo năm 2023 của OpenAI "Hãy xác minh từng bước" cho thấy PRM vượt trội đáng kể so với các mô hình phần thưởng dựa trên kết quả trong các nhiệm vụ lý luận toán học. Ý tưởng này đã trở thành nền tảng cho một điều gì đó lớn hơn nhiều, mà tôi sẽ đề cập đến trong Tuần 12 khi chúng ta đề cập đến việc chia tỷ lệ điện toán trong thời gian thử nghiệm. Phần 3: OpenAI o1 và DeepSeek-R1 OpenAI o1: Cho người mẫu thời gian để suy nghĩ Vào tháng 9 năm 2024, OpenAI đã phát hành o1 và nhận được phản hồi từ cộng đồng nghiên cứu ngay lập tức. Ý tưởng đằng sau o1 rất đơn giản. Cho mô hình thêm thời gian để suy nghĩ về suy luận. Trước khi đưa ra câu trả lời, o1 tạo ra một chuỗi suy nghĩ ẩn mà người dùng không bao giờ nhìn thấy nhưng mô hình sẽ sử dụng nội bộ. Chuỗi này được đào tạo bằng phương pháp học tăng cường: mô hình được khen thưởng khi đưa ra câu trả lời đúng, điều này giúp mô hình phát triển các chiến lược suy luận nội bộ tốt hơn. Kết quả AIME 2024, cuộc thi toán cấp 3 khét tiếng khó

Chuỗi suy nghĩ và hơn thế nữa: LLM thực sự học cách suy luận như thế nào