Bỏ qua tới nội dung chính
Quay lại tin tức

Điều hướng các giao lộ bị tắc bằng phương tiện tự hành bằng cách sử dụng DeepReinforcement Learning

Dev.to Machine Learning· Paperium· 16/5/2026opensource

{{ $json.postContent }}

Giấy Đăng vào ngày 16 tháng 5 • Được xuất bản lần đầu tại paperium.net Điều hướng các giao lộ bị tắc bằng phương tiện tự hành bằng cách sử dụng DeepReinforcement Learning #ai #học sâu #khoa học máy tính #học máy AI (Dòng sản phẩm 3037) 1 Học tập đặc vụ thông qua trải nghiệm ban đầu 2 MM-HELIX: Tăng cường khả năng suy luận chuỗi dài đa phương thức với nền tảng toàn diện và tối ưu hóa chính sách kết hợp thích ứng ... 3033 phần khác... 3 MemMamba: Xem xét lại các mô hình bộ nhớ trong mô hình không gian trạng thái 4 UniVideo: Hiểu, tạo và chỉnh sửa thống nhất cho video 5 VideoCanvas: Hoàn thành video hợp nhất từ các bản vá không gian thời gian tùy ý thông qua Điều hòa trong ngữ cảnh 6 DreamOmni2: Chỉnh sửa và tạo dựa trên hướng dẫn đa phương thức 7 Từ Cái gì đến Tại sao: Một hệ thống đa tác nhân để lập luận về điều kiện phản ứng hóa học dựa trên bằng chứng 8 Nhận thức tổng hợp nâng cao các mô hình lý luận: Học tập tăng cường tự liên kết 9 Khi suy nghĩ gặp sự thật: Lý do có thể tái sử dụng cho LM có bối cảnh dài 10 Mã thông báo có xác suất thấp duy trì hoạt động khám phá trong học tập tăng cường với phần thưởng có thể xác minh được 11 Điệu Waltz liên kết: Cùng đào tạo các đại lý để cộng tác vì sự an toàn 12 Tối ưu hóa chính sách tương đối của nhóm không cần đào tạo 13 Tăng cường kết hợp: Khi phần thưởng thưa thớt, tốt hơn là nên dày đặc 14 NewtonBench: Đánh giá khám phá luật khoa học tổng quát hóa điểm chuẩn trong các đại lý LLM 15 ARTDECO: Hướng tới tái tạo 3D nhanh chóng và hiệu quả với độ trung thực cao với khả năng trình bày cảnh có cấu trúc 16 DeepPrune: Chia tỷ lệ song song mà không cần dự phòng giữa các dấu vết 17 Các vấn đề về lần thử đầu tiên: Xem lại vai trò của sự suy ngẫm trong các mô hình lý luận 18 LLM học cách đánh lừa một cách vô chủ ý: Sự sai lệch nổi lên về tính không trung thực từ các mẫu không chính xác đến sự tương tác thiên vị giữa con người và AI 19 UniMMVSR: Khung đa phương thức hợp nhất cho video siêu phân giải xếp tầng 20 NaViL: Xem xét lại các thuộc tính mở rộng của các mô hình ngôn ngữ lớn đa phương thức bản địa trong các ràng buộc dữ liệu 21 CoMAS: Hệ thống đa tác nhân cùng phát triển thông qua phần thưởng tương tác 22 PickStyle: Chuyển kiểu video sang video bằng bộ điều hợp kiểu ngữ cảnh 23 UNIDOC-BENCH: Điểm chuẩn thống nhất cho RAG đa phương thức lấy tài liệu làm trung tâm 24 InstructX: Hướng tới chỉnh sửa hình ảnh thống nhất với hướng dẫn MLLM 25 LongRM: Tiết lộ và mở khóa ranh giới bối cảnh của mô hình khen thưởng 26 Học tập trong công việc: Một tác nhân tự phát triển dựa trên kinh nghiệm cho các nhiệm vụ dài hạn 27 Củng cố các mô hình khuếch tán bằng cách tối ưu hóa ưu tiên nhóm trực tiếp 28 Điều chỉnh việc tạo video chuyển văn bản thành âm thanh thông qua điều kiện và tương tác phương thức nâng cao 29 Kích hoạt chính quy Entropy: Tăng cường kiểm soát liên tục, mô hình ngôn ngữ lớn và phân loại hình ảnh với kích hoạt như 30 Truy xuất và hợp nhất bộ nhớ trong các mô hình ngôn ngữ lớn thông qua FunctionTokens 31 Tái sử dụng các điểm kiểm tra được đào tạo trước: Sự phát triển trực giao của hỗn hợp các chuyên gia để đào tạo trước mô hình ngôn ngữ lớn hiệu quả 32 GCPO: Khi độ tương phản không thành công, hãy trở thành vàng 33 UP2You: Tái tạo nhanh chóng bản thân từ Bộ sưu tập ảnh không giới hạn 34 OmniRetarget: Tạo dữ liệu bảo toàn tương tác cho thao tác Loco toàn cơ thể hình người và tương tác cảnh 35 DexNDM: Thu hẹp khoảng cách thực tế cho khả năng xoay khéo léo bằng tay thông qua Mô hình động lực học thần kinh chung 36 A^2Tìm kiếm: Trả lời câu hỏi nhận biết sự mơ hồ bằng phương pháp học tăng cường 37 Học cách định tuyến LLM từ phản hồi của kẻ cướp: Một chính sách, nhiều sự đánh đổi 38 Search-R3: Hợp nhất khả năng suy luận và tạo nhúng trong các mô hình ngôn ngữ lớn 39 R2RGEN: Tạo dữ liệu 3D thực tế cho thao tác tổng quát về mặt không gian 40 Drive&Gen: Đồng đánh giá các mô hình thúc đẩy và tạo video từ đầu đến cuối 41 Ngoài các ngoại lệ: Nghiên cứu về các trình tối ưu hóa theo lượng tử hóa 42 SViM3D: Khuếch tán vật liệu video ổn định cho thế hệ 3D hình ảnh đơn 43 GyroSwin: Chất thay thế 5D cho Mô phỏng nhiễu loạn huyết tương Gyrokinetic 44 Hướng tới chỉnh sửa 3D nhất quán và có thể mở rộng 45 Sử dụng mạng trực tuyến nếu bạn có thể: Hướng tới việc học tăng cường nhanh chóng và ổn định 46 Thành phần dữ liệu nhận biết độ trung thực để khái quát hóa robot mạnh mẽ 47 SciVideoBench: So sánh lý luận video khoa học trong các mô hình đa phương thức lớn 48 Chưng cất khuếch tán quy mô lớn thông qua tính nhất quán theo thời gian liên tục được điều chỉnh theo điểm 49 Vượt quá giới hạn lần lượt: Đào tạo tác nhân tìm kiếm sâu với cửa sổ ngữ cảnh động 50 OpenRubrics: Hướng tới việc tạo phiếu tự đánh giá tổng hợp có thể mở rộng để lập mô hình phần thưởng và liên kết LLM 51 Suy nghĩ với Máy ảnh: Một mô hình đa phương thức thống nhất để hiểu và tạo ra máy ảnh làm trung tâm 52 D2E: Mở rộng quy mô đào tạo trước hành động-thị giác trên dữ liệu máy tính để bàn để chuyển sang EmbbedAI 53 TAG:Hướng dẫn khuếch đại tiếp tuyến để lấy mẫu khuếch tán kháng ảo giác 54 Tối ưu hóa lời nhắc đa phương thức: Tại sao không tận dụng nhiều phương thức cho MLLM 55 AutoPR: Hãy tự động hóa hoạt động xúc tiến học tập của bạn! 56 R-Horizon: Mô hình suy luận lớn của bạn thực sự có thể tiến xa đến mức nào về chiều rộng và chiều sâu? 57 Webscale-RL: Đường dẫn dữ liệu tự động để chia tỷ lệ dữ liệu RL đến cấp độ đào tạo trước 58 SpaceVista: Lý luận không gian trực quan trên mọi quy mô từ mm đến km 59 StreamingVLM: Hiểu theo thời gian thực cho luồng video vô hạn 60 Đừng lãng phí những sai lầm: Tận dụng các nhóm RL tiêu cực thông qua việc tái đánh giá niềm tin 61 ARES: Lý luận thích ứng đa phương thức thông qua EntropyShaping cấp độ mã thông báo nhận biết độ khó 62 KORMo: Mô hình lý luận mở của Hàn Quốc dành cho mọi người 63 DISCO: Đa dạng hóa quá trình ngưng tụ mẫu để đánh giá mô hình hiệu quả 64 Kết nối lý luận với việc học: Vạch trần những ảo tưởng bằng cách sử dụng sự phức tạp ngoài sự khái quát hóa phân phối 65 Máy biến áp Gaussian lũy tiến w

Nguồn tin: Dev.to Machine Learning — Tác giả: Paperium. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.