Hiển thị HN: Điểm chuẩn AI/ML cho suy luận LLM cục bộ và đào tạo XGBoost trên GPU/CPU
URL bài viết: https://github.com/albedan/ai-ml-gpu-bench URL nhận xét: https://news.ycombinator.com/item?id=48158245 Điểm: 2 # Bình luận: 0
Bộ công cụ GPU Bench AI & ML dành cho Python
Mục tiêu
Một lệnh → điểm chuẩn GPU/CPU đầy đủ và báo cáo HTML tương tác
Giờ đây, bạn có thể đo hiệu suất GPU và/hoặc CPU tiêu dùng của mình trên khối lượng công việc Trí tuệ nhân tạo và Học máy điển hình theo cách được kiểm soát, với một số kết quả tham chiếu đặt trước.
Các điểm chuẩn có thể tái tạo bao gồm:
Ollama LLM (độ trễ và thông lượng mã thông báo trên các mô hình tham số 3B → 14B khác nhau)
XGBoost (đào tạo và suy luận về tập dữ liệu HIGGS, trên 100k → 10M+ hàng)
Mọi thứ đều được sắp xếp bởi một tệp YAML duy nhất (ai_bench_suite.yaml) và một tập lệnh chạy (run_suite.py), do đó bạn có thể khởi chạy toàn bộ tập hợp thử nghiệm bằng một lệnh.
Kết quả có thể nhìn thấy:
ngay khi kết thúc điểm chuẩn, trong một cuốn sổ ghi chép được tạo tự động, có sự so sánh với một số hệ thống tham chiếu;
trên bảng điều khiển Streamlit được cập nhật thường xuyên để tương tác tốt hơn với số lượng kết quả ngày càng tăng: https://ai-ml-gpu-bench.streamlit.app
Bắt đầu nhanh
bản sao git https://github.com/albedan/ai-ml-gpu-bench
cd ai-ml-gpu-băng ghế
uv chạy run_suite.py
Đối với điểm chuẩn của Ollama, hãy đảm bảo Ollama được cài đặt và chạy tại http://localhost:11434.
Để tự động kéo các mô hình Ollama bị thiếu trong quá trình đo điểm chuẩn đầy đủ:
uv chạy run_suite.py --autopull
Điều gì xảy ra trong quá trình chạy
Một run_id duy nhất được tạo ra.
Các điểm chuẩn được chỉ định trong tệp YAML cấu hình sẽ được thực thi.
Kết quả của mỗi lần kiểm tra được ghi lại trong hai tệp CSV riêng biệt cho XGBoost và Ollama (nếu cả hai đều được chọn).
Sổ ghi chép Jupyter được thực thi và xuất sang HTML; nó sẽ tự động mở trong trình duyệt (các thanh có đường viền dày là những thanh trong quá trình chạy vừa hoàn thành).
Nếu bạn muốn giúp phát triển cơ sở kết quả tham chiếu thì hai tệp CSV này sẽ được mã hóa (RSA 4096 bit) và tải lên Filebin, chỉ gửi dữ liệu kỹ thuật (có thể chọn không tham gia).
Quá trình nhập hàng ngày sẽ nhập kết quả mới và xuất bản chúng lên bảng điều khiển Streamlit. Thông tin thêm về kiến trúc bên dưới: https://allaboutdata.substack.com/p/benchmarking-ai-and-ml-on-local-cpugpus
Những gì mong đợi: hai ví dụ
Nhiều máy được điểm chuẩn trên Deepseek-R1 14B qua Ollama (Bảng điều khiển Streamlit):
XGBoost đã thử nghiệm trên bộ dữ liệu HIGGS đầy đủ, cả với GPU và CPU (bảng điều khiển Streamlit):
Kết quả chính thức được cập nhật và công bố thường xuyên trên bảng điều khiển Streamlit: https://ai-ml-gpu-bench.streamlit.app
Để thuận tiện, một sổ ghi chép Jupyter nhanh sẽ được hiển thị ngay ở cuối điểm chuẩn.
Bắt đầu!
Yêu cầu
Đảm bảo bạn đã cài đặt ít nhất các thành phần bắt buộc phải có bên dưới
Yêu cầu
Tại sao nó cần thiết
Cách cài đặt
Bắt buộc?
Python ≥ 3,13
Thời gian chạy cho các tập lệnh
https://www.python.org/
phải
uv 0.8.x
Trình quản lý gói & trình tạo tệp khóa siêu nhanh
https://docs.astral.sh/uv/getting-started/installation/
phải
CUDA ≥ 12.x
Điểm chuẩn GPU (XGBoost + CuPy, Ollama)
Trình điều khiển NVIDIA + https://developer.nvidia.com/cuda-downloads
Tùy chọn
(chỉ khi GPU được chọn trong YAML)
Ollama (chạy tại http://localhost:11434)
Điểm chuẩn LLM thông qua API REST
https://ollama.com/download
Tùy chọn
(chỉ khi bạn muốn kiểm tra LLM)
Người mẫu Ollama
Các mô hình được chỉ định trong ai_bench_suite.yaml
(các mô hình nhận xét để loại trừ chúng, xác minh cài đặt bằng danh sách ollama)
https://ollama.com/library
Tùy chọn
(chỉ khi bạn muốn kiểm tra LLM)
Thiết lập môi trường
Trong một thư mục cục bộ, chỉ cần sao chép kho lưu trữ này:
bản sao git https://github.com/albedan/ai-ml-gpu-bench
Python 3.13.* sẽ được cài đặt tự động (trừ khi đã có) qua uv.
Cấu hình: ai_bench_suite.yaml
Tất cả các tham số điểm chuẩn đều có trong tệp YAML này.
Mặc định hệ thống cho tên máy và chi tiết phần cứng của bạn sẽ được sử dụng, trừ khi bạn ghi đè thủ công bất kỳ trường nào trong ba trường này.
thông tin máy:
machine: "" # Chọn tên máy tính ưa thích của bạn (mặc định: tên máy chủ)
cpu: "" # Vui lòng chỉ định CPU của bạn
gpu: "" # Vui lòng chỉ định GPU của bạn
Nhận xét một mục mô hình LLM trong phần ollama sẽ loại nó khỏi điểm chuẩn. Nếu có thể, hãy để nguyên tất cả như được cung cấp để giúp thu thập kết quả trên một bộ LLM tiêu chuẩn.
Đối với các LLM đang hoạt động (tức là không bị chú thích), bạn có thể:
Yêu cầu điểm chuẩn tự động kiểm tra và nếu cần, hãy kéo chúng cho bạn bằng cách sử dụng cờ --autopull. Hãy cân nhắc rằng việc này có thể mất vài phút tùy thuộc vào kết nối của bạn.
Xác minh thủ công xem chúng có sẵn trong danh sách ollama hay không và cài đặt chúng bằng ollama pull [model_name].
Mọi kết hợp được liệt kê trong hàng × gpu (dành cho XGBoost) và kiểu máy × gpu (dành cho Ollama) đều được chạy tự động trong quá trình đo điểm chuẩn.
Thi hành
Một lệnh duy nhất sẽ đọc tệp YAML cấu hình và sắp xếp việc thực hiện kiểm tra, ghi nhật ký và trực quan hóa kết quả.
Đơn giản chỉ cần chạy:
uv chạy run_suite.py
Lần chạy đầu tiên có thể lâu hơn một chút vì uv sẽ tự động tạo môi trường và cài đặt các phần phụ thuộc Python/gói. Ollama phải được cài đặt sẵn để đo điểm chuẩn LLM. Bạn có thể tự động kéo các mô hình được chỉ định trong tệp YAML chỉ bằng cách thêm --autopull.
--autopull tải xuống các mẫu Ollama bị thiếu nhưng không cài đặt hoặc cập nhật chính Ollama.
Khi khởi động, bộ Ollama sẽ kiểm tra phiên bản Ollama đã cài đặt của bạn so với bản phát hành ổn định mới nhất và in cảnh báo nếu khuyến nghị cập nhật. Điểm chuẩn vẫn tiếp tục theo một trong hai cách.
Cũng hãy xem xét tùy chọn --fast để chỉ đo điểm chuẩn trên một tập hợp con được tạo thành từ các mô hình nhanh nhất.
Các lệnh chung
Mục tiêu
Lệnh
Ghi chú
Chạy bộ điểm chuẩn đầy đủ
uv chạy run_suite.py
Mặc định: XGBoost + Ollama
Chỉ chạy điểm chuẩn Ollama
uv chạy run_suite.py --suite ollama
Yêu cầu Ollama chạy tại http://localhost:11434
Chỉ chạy điểm chuẩn XGBoost
uv chạy run_suite.py --suite xgboost
Hữu ích nếu bạn không muốn chạy thử nghiệm LLM
Chạy tập hợp con Ollama nhanh hơn
uv chạy run_suite.py --suite ollama --fast
Chỉ sử dụng các mô hình nhỏ hơn/nhanh hơn từ YAML
Tự động kéo các mẫu Ollama bị thiếu
uv chạy run_suite.py --autopull
Chỉ tải xuống các mô hình; nó không cài đặt hoặc cập nhật Ollama
Bỏ qua tải lên kết quả được mã hóa
uv chạy run_suite.py --no-upload-results
Giữ tất cả resu
Nguồn tin: Hacker News LLM — Tác giả: albedan. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.