Hiển thị HN: Điểm chuẩn AI/ML cho suy luận LLM cục bộ và đào…

URL bài viết: https://github.com/albedan/ai-ml-gpu-bench URL nhận xét: https://news.ycombinator.com/item?id=48158245 Điểm: 2 # Bình luận: 0

Bộ công cụ GPU Bench AI & ML dành cho Python Mục tiêu Một lệnh → điểm chuẩn GPU/CPU đầy đủ và báo cáo HTML tương tác Giờ đây, bạn có thể đo hiệu suất GPU và/hoặc CPU tiêu dùng của mình trên khối lượng công việc Trí tuệ nhân tạo và Học máy điển hình theo cách được kiểm soát, với một số kết quả tham chiếu đặt trước. Các điểm chuẩn có thể tái tạo bao gồm: Ollama LLM (độ trễ và thông lượng mã thông báo trên các mô hình tham số 3B → 14B khác nhau) XGBoost (đào tạo và suy luận về tập dữ liệu HIGGS, trên 100k → 10M+ hàng) Mọi thứ đều được sắp xếp bởi một tệp YAML duy nhất (ai_bench_suite.yaml) và một tập lệnh chạy (run_suite.py), do đó bạn có thể khởi chạy toàn bộ tập hợp thử nghiệm bằng một lệnh. Kết quả có thể nhìn thấy: ngay khi kết thúc điểm chuẩn, trong một cuốn sổ ghi chép được tạo tự động, có sự so sánh với một số hệ thống tham chiếu; trên bảng điều khiển Streamlit được cập nhật thường xuyên để tương tác tốt hơn với số lượng kết quả ngày càng tăng: https://ai-ml-gpu-bench.streamlit.app Bắt đầu nhanh bản sao git https://github.com/albedan/ai-ml-gpu-bench cd ai-ml-gpu-băng ghế uv chạy run_suite.py Đối với điểm chuẩn của Ollama, hãy đảm bảo Ollama được cài đặt và chạy tại http://localhost:11434. Để tự động kéo các mô hình Ollama bị thiếu trong quá trình đo điểm chuẩn đầy đủ: uv chạy run_suite.py --autopull Điều gì xảy ra trong quá trình chạy Một run_id duy nhất được tạo ra. Các điểm chuẩn được chỉ định trong tệp YAML cấu hình sẽ được thực thi. Kết quả của mỗi lần kiểm tra được ghi lại trong hai tệp CSV riêng biệt cho XGBoost và Ollama (nếu cả hai đều được chọn). Sổ ghi chép Jupyter được thực thi và xuất sang HTML; nó sẽ tự động mở trong trình duyệt (các thanh có đường viền dày là những thanh trong quá trình chạy vừa hoàn thành). Nếu bạn muốn giúp phát triển cơ sở kết quả tham chiếu thì hai tệp CSV này sẽ được mã hóa (RSA 4096 bit) và tải lên Filebin, chỉ gửi dữ liệu kỹ thuật (có thể chọn không tham gia). Quá trình nhập hàng ngày sẽ nhập kết quả mới và xuất bản chúng lên bảng điều khiển Streamlit. Thông tin thêm về kiến trúc bên dưới: https://allaboutdata.substack.com/p/benchmarking-ai-and-ml-on-local-cpugpus Những gì mong đợi: hai ví dụ Nhiều máy được điểm chuẩn trên Deepseek-R1 14B qua Ollama (Bảng điều khiển Streamlit): XGBoost đã thử nghiệm trên bộ dữ liệu HIGGS đầy đủ, cả với GPU và CPU (bảng điều khiển Streamlit): Kết quả chính thức được cập nhật và công bố thường xuyên trên bảng điều khiển Streamlit: https://ai-ml-gpu-bench.streamlit.app Để thuận tiện, một sổ ghi chép Jupyter nhanh sẽ được hiển thị ngay ở cuối điểm chuẩn. Bắt đầu! Yêu cầu Đảm bảo bạn đã cài đặt ít nhất các thành phần bắt buộc phải có bên dưới Yêu cầu Tại sao nó cần thiết Cách cài đặt Bắt buộc? Python ≥ 3,13 Thời gian chạy cho các tập lệnh https://www.python.org/ phải uv 0.8.x Trình quản lý gói & trình tạo tệp khóa siêu nhanh https://docs.astral.sh/uv/getting-started/installation/ phải CUDA ≥ 12.x Điểm chuẩn GPU (XGBoost + CuPy, Ollama) Trình điều khiển NVIDIA + https://developer.nvidia.com/cuda-downloads Tùy chọn (chỉ khi GPU được chọn trong YAML) Ollama (chạy tại http://localhost:11434) Điểm chuẩn LLM thông qua API REST https://ollama.com/download Tùy chọn (chỉ khi bạn muốn kiểm tra LLM) Người mẫu Ollama Các mô hình được chỉ định trong ai_bench_suite.yaml (các mô hình nhận xét để loại trừ chúng, xác minh cài đặt bằng danh sách ollama) https://ollama.com/library Tùy chọn (chỉ khi bạn muốn kiểm tra LLM) Thiết lập môi trường Trong một thư mục cục bộ, chỉ cần sao chép kho lưu trữ này: bản sao git https://github.com/albedan/ai-ml-gpu-bench Python 3.13.* sẽ được cài đặt tự động (trừ khi đã có) qua uv. Cấu hình: ai_bench_suite.yaml Tất cả các tham số điểm chuẩn đều có trong tệp YAML này. Mặc định hệ thống cho tên máy và chi tiết phần cứng của bạn sẽ được sử dụng, trừ khi bạn ghi đè thủ công bất kỳ trường nào trong ba trường này. thông tin máy: machine: "" # Chọn tên máy tính ưa thích của bạn (mặc định: tên máy chủ) cpu: "" # Vui lòng chỉ định CPU của bạn gpu: "" # Vui lòng chỉ định GPU của bạn Nhận xét một mục mô hình LLM trong phần ollama sẽ loại nó khỏi điểm chuẩn. Nếu có thể, hãy để nguyên tất cả như được cung cấp để giúp thu thập kết quả trên một bộ LLM tiêu chuẩn. Đối với các LLM đang hoạt động (tức là không bị chú thích), bạn có thể: Yêu cầu điểm chuẩn tự động kiểm tra và nếu cần, hãy kéo chúng cho bạn bằng cách sử dụng cờ --autopull. Hãy cân nhắc rằng việc này có thể mất vài phút tùy thuộc vào kết nối của bạn. Xác minh thủ công xem chúng có sẵn trong danh sách ollama hay không và cài đặt chúng bằng ollama pull [model_name]. Mọi kết hợp được liệt kê trong hàng × gpu (dành cho XGBoost) và kiểu máy × gpu (dành cho Ollama) đều được chạy tự động trong quá trình đo điểm chuẩn. Thi hành Một lệnh duy nhất sẽ đọc tệp YAML cấu hình và sắp xếp việc thực hiện kiểm tra, ghi nhật ký và trực quan hóa kết quả. Đơn giản chỉ cần chạy: uv chạy run_suite.py Lần chạy đầu tiên có thể lâu hơn một chút vì uv sẽ tự động tạo môi trường và cài đặt các phần phụ thuộc Python/gói. Ollama phải được cài đặt sẵn để đo điểm chuẩn LLM. Bạn có thể tự động kéo các mô hình được chỉ định trong tệp YAML chỉ bằng cách thêm --autopull. --autopull tải xuống các mẫu Ollama bị thiếu nhưng không cài đặt hoặc cập nhật chính Ollama. Khi khởi động, bộ Ollama sẽ kiểm tra phiên bản Ollama đã cài đặt của bạn so với bản phát hành ổn định mới nhất và in cảnh báo nếu khuyến nghị cập nhật. Điểm chuẩn vẫn tiếp tục theo một trong hai cách. Cũng hãy xem xét tùy chọn --fast để chỉ đo điểm chuẩn trên một tập hợp con được tạo thành từ các mô hình nhanh nhất. Các lệnh chung Mục tiêu Lệnh Ghi chú Chạy bộ điểm chuẩn đầy đủ uv chạy run_suite.py Mặc định: XGBoost + Ollama Chỉ chạy điểm chuẩn Ollama uv chạy run_suite.py --suite ollama Yêu cầu Ollama chạy tại http://localhost:11434 Chỉ chạy điểm chuẩn XGBoost uv chạy run_suite.py --suite xgboost Hữu ích nếu bạn không muốn chạy thử nghiệm LLM Chạy tập hợp con Ollama nhanh hơn uv chạy run_suite.py --suite ollama --fast Chỉ sử dụng các mô hình nhỏ hơn/nhanh hơn từ YAML Tự động kéo các mẫu Ollama bị thiếu uv chạy run_suite.py --autopull Chỉ tải xuống các mô hình; nó không cài đặt hoặc cập nhật Ollama Bỏ qua tải lên kết quả được mã hóa uv chạy run_suite.py --no-upload-results Giữ tất cả resu

Hiển thị HN: Điểm chuẩn AI/ML cho suy luận LLM cục bộ và đào tạo XGBoost trên GPU/CPU