Các nhà nghiên cứu của MIT tiết lộ “SEAL”: Một bước tiến mới…

Khái niệm tự cải thiện AI đã trở thành một chủ đề nóng trong giới nghiên cứu gần đây, với hàng loạt bài báo mới nổi và những nhân vật nổi bật như Giám đốc điều hành OpenAI Sam Altman đang cân nhắc về tương lai của các hệ thống thông minh tự phát triển. Giờ đây, một bài báo mới của MIT, có tiêu đề “Mô hình ngôn ngữ tự thích ứng”, giới thiệu SEAL (LLM tự thích ứng), một khung mới cho phép các mô hình ngôn ngữ lớn (LLM) cập nhật trọng số của riêng chúng. Sự phát triển này được coi là một bước quan trọng khác hướng tới việc hiện thực hóa AI thực sự tự phát triển. Bài báo nghiên cứu được xuất bản ngày hôm qua đã gây ra nhiều cuộc thảo luận đáng kể, bao gồm cả trên Hacker News. SEAL đề xuất một phương pháp trong đó LLM có thể tạo dữ liệu đào tạo của riêng mình thông qua “tự chỉnh sửa” và sau đó cập nhật trọng số của nó dựa trên đầu vào mới. Điều quan trọng là quá trình tự chỉnh sửa này được học thông qua học tăng cường, với cơ chế khen thưởng gắn liền với hiệu suất xuôi dòng của mô hình được cập nhật. Thời điểm của bài viết này đặc biệt đáng chú ý do mối quan tâm ngày càng tăng gần đây xung quanh quá trình tự tiến hóa của AI. Đầu tháng này, một số nỗ lực nghiên cứu khác đã thu hút được sự chú ý, bao gồm “Darwin-Gödel Machine (DGM)” của Sakana AI và Đại học British Columbia, “Đào tạo tự khen thưởng (SRT)” của CMU, khuôn khổ “MM-UPT” của Đại học Shanghai Jiao Tong để liên tục tự cải tiến trong các mô hình lớn đa phương thức và khuôn khổ tự cải thiện “UI-Genie” của Đại học Trung Hoa Hồng Kông phối hợp với vivo. Thêm vào tin đồn, Giám đốc điều hành OpenAI Sam Altman gần đây đã chia sẻ tầm nhìn của mình về tương lai với AI và robot tự cải tiến trong bài đăng trên blog của mình, “The Gentle Singularity”. Ông khẳng định rằng mặc dù hàng triệu robot hình người ban đầu sẽ cần sản xuất truyền thống, nhưng sau đó chúng sẽ có thể “vận hành toàn bộ chuỗi cung ứng để chế tạo nhiều robot hơn, từ đó có thể xây dựng thêm nhiều cơ sở chế tạo chip, trung tâm dữ liệu, v.v.” Ngay sau đó là một tweet từ @VraserX, tuyên bố rằng một người trong cuộc của OpenAI tiết lộ rằng công ty đã chạy đệ quy AI tự cải tiến trong nội bộ, một tuyên bố đã gây ra cuộc tranh luận rộng rãi về tính xác thực của nó. Bất kể chi tiết cụ thể về sự phát triển OpenAI nội bộ, bài báo của MIT về SEAL cung cấp bằng chứng cụ thể về quá trình tự tiến hóa của AI. Tìm hiểu SEAL: Mô hình ngôn ngữ tự thích ứng Ý tưởng cốt lõi đằng sau SEAL là cho phép các mô hình ngôn ngữ tự cải thiện khi gặp dữ liệu mới bằng cách tạo dữ liệu tổng hợp của riêng chúng và tối ưu hóa các tham số thông qua việc tự chỉnh sửa. Mục tiêu đào tạo của mô hình là trực tiếp tạo ra các bản tự chỉnh sửa (SE) này bằng cách sử dụng dữ liệu được cung cấp trong ngữ cảnh của mô hình. Việc tạo ra những bản tự chỉnh sửa này được học thông qua học tăng cường. Mô hình được khen thưởng khi các hoạt động tự chỉnh sửa được tạo ra, sau khi được áp dụng, sẽ dẫn đến hiệu suất được cải thiện đối với nhiệm vụ mục tiêu. Do đó, SEAL có thể được khái niệm hóa như một thuật toán có hai vòng lặp lồng nhau: vòng lặp học tăng cường bên ngoài (RL) giúp tối ưu hóa việc tạo các bản tự chỉnh sửa và vòng lặp cập nhật bên trong sử dụng các bản tự chỉnh sửa được tạo để cập nhật mô hình thông qua việc giảm độ dốc. Phương pháp này có thể được xem như một ví dụ của siêu học tập, trong đó trọng tâm là cách tạo ra các bản tự chỉnh sửa hiệu quả theo kiểu siêu học tập. Một khuôn khổ chung SEAL hoạt động trên một phiên bản nhiệm vụ duy nhất (C,τ), trong đó C là thông tin ngữ cảnh liên quan đến nhiệm vụ và τ xác định đánh giá xuôi dòng để đánh giá khả năng thích ứng của mô hình. Ví dụ, trong một nhiệm vụ tích hợp kiến thức, C có thể là một đoạn văn được tích hợp vào kiến thức nội tại của mô hình và τ là một tập hợp các câu hỏi về đoạn văn đó. Cho C, mô hình tạo ra SE tự chỉnh sửa, sau đó cập nhật các tham số của nó thông qua tinh chỉnh có giám sát: θ′←SFT(θ,SE). Học tăng cường được sử dụng để tối ưu hóa thế hệ tự chỉnh sửa này: mô hình thực hiện một hành động (tạo SE), nhận phần thưởng r dựa trên hiệu suất của LMθ′ trên τ và cập nhật chính sách của nó để tối đa hóa phần thưởng mong đợi. Các nhà nghiên cứu nhận thấy rằng các phương pháp chính sách trực tuyến truyền thống như GRPO và PPO đã dẫn đến việc đào tạo không ổn định. Cuối cùng, họ đã chọn ReST^EM, một phương pháp nhân bản hành vi dựa trên bộ lọc đơn giản hơn từ một bài báo của DeepMind. Phương pháp này có thể được xem như một quy trình Tối đa hóa kỳ vọng (EM), trong đó ứng viên lấy mẫu bước E xuất ra từ chính sách mô hình hiện tại và bước M chỉ củng cố những mẫu mang lại phần thưởng tích cực thông qua việc tinh chỉnh có giám sát. Bài viết cũng lưu ý rằng mặc dù cách triển khai hiện tại sử dụng một mô hình duy nhất để tạo và học hỏi từ quá trình tự chỉnh sửa, nhưng các vai trò này có thể được tách biệt trong cơ chế “giáo viên-học sinh”. Khởi tạo SEAL trong các miền cụ thể Nhóm MIT đã tạo ra SEAL trong hai lĩnh vực cụ thể: tích hợp kiến thức và học tập trong vài lần. Tích hợp kiến thức: Mục tiêu ở đây là tích hợp hiệu quả thông tin từ các bài viết vào trọng số của mô hình. Học ít lần: Điều này liên quan đến việc mô hình thích ứng với các nhiệm vụ mới với rất ít ví dụ. Kết quả thực nghiệm Các kết quả thử nghiệm cho cả phương pháp học tập ngắn hạn và tích hợp kiến thức đã chứng minh tính hiệu quả của khuôn khổ SEAL. Trong phương pháp học vài lần, sử dụng mô hình Llama-3.2-1B-Instruct, SEAL đã cải thiện đáng kể tỷ lệ thích ứng thành công, đạt 72,5% so với 20% đối với các mô hình sử dụng tính năng tự chỉnh sửa cơ bản mà không cần đào tạo RL và 0% không thích ứng. Mặc dù vẫn ở dưới mức “Oracle TTT” (đường cơ sở lý tưởng hóa), nhưng điều này cho thấy sự tiến bộ đáng kể. Để tích hợp kiến thức, sử dụng mô hình Qwen2.5-7B lớn hơn để tích hợp các dữ kiện mới từ các bài viết của SQuAD, SEAL luôn hoạt động tốt hơn các phương pháp cơ bản. Việc đào tạo với dữ liệu được tạo tổng hợp từ mô hình Qwen-2.5-7B cơ bản đã cho thấy những cải tiến đáng chú ý và việc học tăng cường sau đó đã nâng cao hơn nữa hiệu suất. Độ chính xác cũng

Các nhà nghiên cứu của MIT tiết lộ “SEAL”: Một bước tiến mới hướng tới AI tự cải thiện