Tối ưu hóa tham số thời gian chạy bằng LLM nhằm suy luận mô hình tiết kiệm năng lượng
URL bài viết: https://arxiv.org/abs/2604.27032 URL bình luận: https://news.ycombinator.com/item?id=48403393 Điểm: 1 Bình luận: 0
Khoa học Máy tính > Kỹ thuật Phần mềm
arXiv:2604.27032 (cs)
[Đệ trình ngày 29/4/2026]
Tiêu đề: Tối ưu hóa tham số thời gian chạy có hướng dẫn của LLM để suy luận mô hình tiết kiệm năng lượng
Tác giả: Katelyn Crumpacker, Dimitrios Nikolopoulos
Xem bản PDF của bài báo có tiêu đề Tối ưu hóa tham số thời gian chạy có hướng dẫn của LLM để suy luận mô hình tiết kiệm năng lượng, của Katelyn Crumpacker và Dimitrios Nikolopoulos
Xem PDF
HTML (thử nghiệm)
Tóm tắt: Các mô hình ngôn ngữ lớn (LLM) đã trở thành một phần không thể thiếu trong nhiều quy trình làm việc thực tế. Tuy nhiên, LLM tiêu thụ nhiều năng lượng, điều này trở thành một mối lo ngại lớn trong bối cảnh nhu cầu về các công cụ này. Khi LLM được tích hợp vào các quy trình làm việc khác nhau, nhiều ứng dụng đã xuất hiện để giải quyết thách thức về việc chạy suy luận cho các công cụ này. Điều này đặt ra một vấn đề khác là lựa chọn các giá trị tham số thời gian chạy cho các dịch vụ này nhằm giảm thiểu mức tiêu thụ năng lượng. Thông thường, điều này đòi hỏi kiến thức sâu sắc về ứng dụng hoặc các phương pháp tối ưu hóa truyền thống có thể mất nhiều ngày để tìm ra các giá trị tối ưu. Trong công trình này, chúng tôi đã tạo ra một quy trình có sự tham gia của con người với sự hỗ trợ của LLM trong việc tối ưu hóa tham số thời gian chạy để giải quyết vấn đề này. Với các phương pháp nhắc phản hồi cụ thể, do con người tạo ra, các LLM dựa trên trò chuyện có thể lặp lại để tìm ra các tham số suy luận tiết kiệm năng lượng nhanh hơn các phương pháp tìm kiếm truyền thống. LLM cũng có thể điều chỉnh các giải pháp của mình cho các thiết lập phần cứng khác nhau và dễ dàng tính đến các ràng buộc hệ thống khác. Mẫu nhắc được cải tiến có thể hội tụ dưới ngưỡng với trung bình 3,4 nhắc so với đường cơ sở, vốn hội tụ với trung bình 5,2 nhắc, và liên tục đạt được mức năng lượng cuối cùng trên mỗi token thấp hơn. Mẫu nhắc được cải tiến cũng vượt trội hơn phương pháp lấy mẫu Sobol về tốc độ hội tụ.
Bình luận:
8 trang, 8 hình
Chủ đề:
Kỹ thuật Phần mềm (cs.SE); Học máy (cs.LG)
Trích dẫn:
arXiv:2604.27032 [cs.SE]
(hoặc arXiv:2604.27032v1 [cs.SE] cho phiên bản này)
https://doi.org/10.48550/arXiv.2604.27032
Tập trung để tìm hiểu thêm
DOI do arXiv cấp thông qua DataCite
Lịch sử đệ trình
Từ: Katelyn Crumpacker [xem email]
[v1]
Thứ Tư, 29/4/2026 15:10:14 UTC (580 KB)
Liên kết toàn văn:
Truy cập bài báo:
Xem bản PDF của bài báo có tiêu đề Tối ưu hóa tham số thời gian chạy có hướng dẫn của LLM để suy luận mô hình tiết kiệm năng lượng, của Katelyn Crumpacker và Dimitrios Nikolopoulos
Xem PDF
HTML (thử nghiệm)
Nguồn TeX
xem giấy phép
Ngữ cảnh duyệt hiện tại:
cs.SE
< trước | tiếp >
mới | gần đây | 2026-04
Thay đổi để duyệt theo:
cs
cs.LG
Tài liệu tham khảo & Trích dẫn
NASA ADS
Google Scholar
Semantic Scholar
xuất trích dẫn BibTeX
Đang tải...
Trích dẫn định dạng BibTeX
×
đang tải...
Dữ liệu được cung cấp bởi:
Đánh dấu
Công cụ thư mục
Công cụ thư mục và trích dẫn
Chuyển đổi trình khám phá thư mục
Trình khám phá thư mục (Trình khám phá là gì?)
Chuyển đổi bài báo liên quan
Bài báo liên quan (Bài báo liên quan là gì?)
Chuyển đổi Litmaps
Litmaps (Litmaps là gì?)
Chuyển đổi scite.ai
Trích dẫn thông minh scite (Trích dẫn thông minh là gì?)
Mã, Dữ liệu, Phương tiện
Mã, Dữ liệu và Phương tiện liên quan đến bài viết này
Chuyển đổi alphaXiv
alphaXiv (alphaXiv là gì?)
Liên kết đến mã nguồn
CatalyzeX Code Finder for Papers (CatalyzeX là gì?)
DagsHub
DagsHub (DagsHub là gì?)
GotitPub
Gotit.pub (GotitPub là gì?)
Huggingface
Hugging Face (Huggingface là gì?)
ScienceCast
ScienceCast (ScienceCast là gì?)
Bản trình diễn
Bản trình diễn
Replicate
Replicate (Replicate là gì?)
Spaces
Hugging Face Spaces (Spaces là gì?)
Spaces
TXYZ.AI (TXYZ.AI là gì?)
Các bài báo liên quan
Công cụ đề xuất và tìm kiếm
Liên kết đến Influence Flower
Influence Flower (Influence Flowers là gì?)
Công cụ đề xuất cốt lõi
CORE Recommender (CORE là gì?)
Tác giả
Địa điểm
Tổ chức
Chủ đề
Về arXivLabs
arXivLabs: các dự án thử nghiệm với cộng tác viên cộng đồng
arXivLabs là một khuôn khổ cho phép các cộng tác viên phát triển và chia sẻ các tính năng arXiv mới trực tiếp trên trang web của chúng tôi.
Cả cá nhân và tổ chức làm việc với arXivLabs đều đã chấp nhận và tuân thủ các giá trị của chúng tôi về sự cởi mở, cộng đồng, sự xuất sắc và quyền riêng tư dữ liệu người dùng. arXiv cam kết với các giá trị này và chỉ làm việc với các đối tác tuân thủ chúng.
Bạn có ý tưởng cho một dự án sẽ mang lại giá trị cho cộng đồng arXiv không? Tìm hiểu thêm về arXivLabs.
Những tác giả nào của bài báo này là người xác nhận? |
Tắt MathJax (MathJax là gì?)
Nguồn tin: Hacker News LLM — Tác giả: PaulHoule. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.