Các nhà khoa học tại Đại học California, Berkeley đã phát triển một phương pháp mới để tạo ra các mô hình ngôn ngữ lớn (LLM) có thể học hỏi từ các tương tác của con người mà không cần đến dữ liệu được gắn nhãn thủ công. Phương pháp này, được gọi là "Tự động điều chỉnh theo phản hồi của con người" (Auto-HRL), sử dụng một LLM khác để mô phỏng phản hồi của con người, cho phép mô hình mục tiêu tự động cải thiện hiệu suất của mình.
Auto-HRL hoạt động bằng cách sử dụng một LLM "giáo viên" để đánh giá các phản hồi do LLM "học sinh" tạo ra. LLM giáo viên được huấn luyện trên một tập dữ liệu nhỏ gồm các phản hồi của con người, cho phép nó học cách đánh giá chất lượng của các phản hồi khác. Sau đó, LLM học sinh sử dụng phản hồi từ LLM giáo viên để cập nhật các tham số của mình, dần dần cải thiện khả năng tạo ra các phản hồi chất lượng cao.
Các nhà nghiên cứu đã thử nghiệm Auto-HRL trên nhiều tác vụ khác nhau, bao gồm tóm tắt văn bản, dịch máy và đối thoại. Trong tất cả các trường hợp, Auto-HRL đã có thể cải thiện đáng kể hiệu suất của LLM học sinh, thậm chí vượt qua các phương pháp điều chỉnh theo phản hồi của con người (HRL) truyền thống.
Một trong những lợi ích chính của Auto-HRL là nó loại bỏ nhu cầu về dữ liệu được gắn nhãn thủ công. Điều này đặc biệt quan trọng đối với các tác vụ mà việc thu thập dữ liệu được gắn nhãn chất lượng cao là tốn kém hoặc không khả thi. Auto-HRL cũng có thể được sử dụng để điều chỉnh các LLM cho các miền hoặc ngôn ngữ cụ thể, nơi dữ liệu được gắn nhãn có thể khan hiếm.
Các nhà nghiên cứu tin rằng Auto-HRL có tiềm năng cách mạng hóa cách chúng ta phát triển các LLM. Bằng cách tự động hóa quá trình điều chỉnh theo phản hồi của con người, Auto-HRL có thể giúp chúng ta tạo ra các LLM mạnh mẽ và linh hoạt hơn, có thể được sử dụng cho nhiều ứng dụng.
Ngoài những lợi ích đã nêu, Auto-HRL còn có thể giúp giảm thiểu các thành kiến trong LLM. Các phương pháp HRL truyền thống có thể vô tình đưa các thành kiến của con người vào mô hình, dẫn đến các phản hồi không công bằng hoặc phân biệt đối xử. Bằng cách sử dụng LLM giáo viên để mô phỏng phản hồi của con người, Auto-HRL có thể giúp giảm thiểu những thành kiến này và tạo ra các LLM công bằng và khách quan hơn.
Các nhà nghiên cứu cũng đang khám phá cách sử dụng Auto-HRL để tạo ra các LLM có khả năng giải thích các quyết định của mình. Điều này đặc biệt quan trọng đối với các ứng dụng mà tính minh bạch và trách nhiệm giải trình là rất cần thiết, chẳng hạn như trong y tế hoặc tài chính.
Nhìn chung, Auto-HRL là một bước tiến đáng kể trong lĩnh vực LLM. Bằng cách tự động hóa quá trình điều chỉnh theo phản hồi của con người, Auto-HRL có thể giúp chúng ta tạo ra các LLM mạnh mẽ, linh hoạt và công bằng hơn, có thể được sử dụng cho nhiều ứng dụng.
Paperium
Đăng ngày 4/6
• Ban đầu được xuất bản tại paperium.net
Từ không gian con chính đến các thành phần chính với bộ tự mã hóa tuyến tính
#ai
#deeplearning
#computerscience
#machinelearning
AI (Loạt bài gồm 3441 phần)
1
Học tập của tác nhân thông qua kinh nghiệm ban đầu
2
MM-HELIX: Tăng cường suy luận phản tư chuỗi dài đa phương thức với nền tảng toàn diện và tối ưu hóa chính sách lai thích ứng
...
3437 phần khác...
3
MemMamba: Suy nghĩ lại các mẫu bộ nhớ trong mô hình không gian trạng thái
4
UniVideo: Hiểu, tạo và chỉnh sửa video thống nhất
5
VideoCanvas: Hoàn thiện video thống nhất từ các bản vá không gian-thời gian tùy ý thông qua điều kiện theo ngữ cảnh
6
DreamOmni2: Chỉnh sửa và tạo đa phương thức dựa trên hướng dẫn
7
Từ cái gì đến tại sao: Một hệ thống đa tác nhân để suy luận điều kiện phản ứng hóa học dựa trên bằng chứng
8
Nhận thức siêu việt nâng cao các mô hình suy luận: Học tăng cường tự điều chỉnh
9
Khi suy nghĩ gặp sự thật: Suy luận có thể tái sử dụng cho các mô hình ngôn ngữ lớn (LLM) ngữ cảnh dài
10
Các token có xác suất thấp duy trì khám phá trong học tăng cường với phần thưởng có thể kiểm chứng
11
Điệu nhảy điều chỉnh: Đào tạo đồng thời các tác nhân để hợp tác vì sự an toàn
12
Tối ưu hóa chính sách tương đối nhóm không cần đào tạo
13
Tăng cường lai: Khi phần thưởng thưa thớt, tốt hơn nên dày đặc
14
NewtonBench: Đánh giá khám phá luật khoa học tổng quát trong các tác nhân LLM
15
ARTDECO: Hướng tới tái tạo 3D hiệu quả và độ trung thực cao theo thời gian thực với biểu diễn cảnh có cấu trúc
16
DeepPrune: Mở rộng song song không có sự dư thừa giữa các dấu vết
17
Lần thử đầu tiên rất quan trọng: Xem xét lại vai trò của sự phản tư trong các mô hình suy luận
18
LLM học cách lừa dối một cách vô ý: Sự sai lệch xuất hiện trong sự không trung thực từ các mẫu sai lệch đến tương tác người-AI thiên vị
19
UniMMVSR: Một khung đa phương thức thống nhất cho siêu phân giải video xếp tầng
20
NaViL: Suy nghĩ lại các thuộc tính mở rộng của các mô hình ngôn ngữ lớn đa phương thức gốc dưới các ràng buộc dữ liệu
21
CoMAS: Các hệ thống đa tác nhân đồng tiến hóa thông qua phần thưởng tương tác
22
PickStyle: Chuyển đổi kiểu video sang video với bộ điều hợp ngữ cảnh-kiểu
23
UNIDOC-BENCH: Một điểm chuẩn thống nhất cho RAG đa phương thức tập trung vào tài liệu
24
InstructX: Hướng tới chỉnh sửa hình ảnh thống nhất với hướng dẫn MLLM
25
LongRM: Tiết lộ và mở khóa ranh giới ngữ cảnh của mô hình hóa phần thưởng
26
Học trong công việc: Một tác nhân tự tiến hóa dựa trên kinh nghiệm cho các nhiệm vụ dài hạn
27
Tăng cường các mô hình khuếch tán bằng cách tối ưu hóa ưu tiên nhóm trực tiếp
28
Kiểm soát tạo video văn bản thành âm thanh thông qua điều kiện và tương tác phương thức nâng cao
29
Kích hoạt điều hòa entropy: Tăng cường kiểm soát liên tục, các mô hình ngôn ngữ lớn và phân loại hình ảnh bằng cách kích hoạt như
30
Truy xuất và củng cố bộ nhớ trong các mô hình ngôn ngữ lớn thông qua các token chức năng
31
Tái chế các điểm kiểm tra được đào tạo trước: Tăng trưởng trực giao của hỗn hợp chuyên gia để đào tạo trước mô hình ngôn ngữ lớn hiệu quả
32
GCPO: Khi độ tương phản thất bại, hãy chọn vàng
33
UP2You: Tái tạo nhanh chóng bản thân từ các bộ sưu tập ảnh không giới hạn
34
OmniRetarget: Tạo dữ liệu bảo toàn tương tác cho thao tác di chuyển và tương tác cảnh toàn thân của người máy
35
DexNDM: Thu hẹp khoảng cách thực tế cho vòng quay khéo léo trong tay thông qua mô hình động lực học thần kinh theo khớp
36. A^2Search: Trả lời câu hỏi nhận biết sự mơ hồ bằng học tăng cường.
37. Học cách định tuyến LLM từ phản hồi Bandit: Một chính sách, nhiều đánh đổi.
38. Search-R3: Thống nhất suy luận và tạo nhúng trong các mô hình ngôn ngữ lớn.
39. R2RGEN: Tạo dữ liệu 3D từ thực tế sang thực tế để thao tác tổng quát hóa không gian.
40. Drive&Gen: Đồng đánh giá các mô hình lái xe đầu cuối và tạo video.
41. Vượt ra ngoài các giá trị ngoại lai: Một nghiên cứu về các bộ tối ưu hóa dưới lượng tử hóa.
42. SViM3D: Khuếch tán vật liệu video ổn định để tạo 3D từ một hình ảnh.
43. GyroSwin: Các mô hình thay thế 5D cho mô phỏng nhiễu loạn plasma Gyrokinetic.
44. Hướng tới chỉnh sửa 3D có thể mở rộng và nhất quán.
45. Sử dụng mạng trực tuyến nếu có thể: Hướng tới học tăng cường nhanh và ổn định.
46. Thành phần dữ liệu nhận biết độ trung thực để tổng quát hóa robot mạnh mẽ.
47. SciVideoBench: Đánh giá khả năng suy luận video khoa học trong các mô hình đa phương thức lớn.
48. Khuếch tán quy mô lớn thông qua tính nhất quán thời gian liên tục được điều chỉnh theo điểm số.
49. Vượt qua giới hạn lượt: Huấn luyện các tác nhân tìm kiếm sâu với cửa sổ ngữ cảnh động.
50. OpenRubrics: Hướng tới tạo tiêu chí tổng hợp có thể mở rộng để mô hình hóa phần thưởng và căn chỉnh LLM.
51. Tư duy bằng camera: Một mô hình đa phương thức thống nhất để hiểu và tạo ra lấy camera làm trung tâm.
52. D2E: Mở rộng tiền huấn luyện thị giác-hành động trên dữ liệu máy tính để chuyển sang AI thể hiện.
53. TAG: Hướng dẫn khuếch đại tiếp tuyến để lấy mẫu khuếch tán chống ảo giác.
54. Tối ưu hóa lời nhắc đa phương thức: Tại sao không tận dụng nhiều phương thức cho MLLM.
55. AutoPR: Hãy tự động hóa việc thăng tiến học thuật của bạn!
56. R-Horizon: Mô hình suy luận lớn của bạn thực sự có thể đi xa đến đâu về chiều rộng và chiều sâu?
57. Webscale-RL: Quy trình dữ liệu tự động để mở rộng dữ liệu RL đến mức tiền huấn luyện.
58. SpaceVista: Suy luận không gian trực quan mọi quy mô từ mm đến km.
59. StreamingVLM: Hiểu biết thời gian thực cho các luồng video vô hạn.
60. Đừng lãng phí sai lầm: Tận dụng các nhóm RL tiêu cực thông qua việc điều chỉnh lại độ tin cậy.
61. ARES: Suy luận thích ứng đa phương thức thông qua định hình entropy cấp mã thông báo nhận biết độ khó.
62. KORMo: Mô hình suy luận mở tiếng Hàn cho mọi người.
63. DISCO: Đa dạng hóa việc cô đặc mẫu để đánh giá mô hình hiệu quả.
64. Kết nối suy luận với học tập: Làm sáng tỏ ảo ảnh bằng cách tổng quát hóa độ phức tạp ngoài phân phối.
65. Biến đổi Gaussian lũy tiến với nhận biết dị hướng.
Nguồn tin: Dev.to Machine Learning — Tác giả: Paperium. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.