Các mô hình ngôn ngữ nhỏ tốt nhất trên Hugging Face hiện nay! |…

Dưới đây là tổng hợp các mô hình ngôn ngữ nhỏ (SLM) tốt nhất hiện có trên Hugging Face, cùng với những ưu điểm nổi bật của từng mô hình, các số liệu đánh giá hỗ trợ cho những tuyên bố này và mã nguồn để bắt đầu sử dụng.

# Giới thiệu Dưới đây là một thông tin có thể thay đổi cách bạn nhìn nhận về kích thước mô hình AI: một mô hình 4 tỷ tham số được phát hành vào đầu năm 2025 hiện đang vượt trội hơn các mô hình lớn gấp 7 lần trên các tiêu chuẩn suy luận thông thường. Google Gemma 3 4B đạt 89,2% trên bài toán suy luận toán học GSM8K. Microsoft Phi-4-mini với 3,8 tỷ tham số đạt 83,7% trên ARC-C, điểm số cao nhất trong toàn bộ phân khúc kích thước của nó. Những con số này trước đây thuộc về các mô hình 30 tỷ tham số trở lên. Vì vậy, câu hỏi "tôi có thực sự cần một mô hình 70 tỷ tham số cho việc này không?" cần được xem xét lại. Trong phạm vi bài viết này, "nhỏ" có nghĩa là dưới 7 tỷ tham số – các mô hình có thể chạy trên một GPU tiêu dùng duy nhất, một máy tính xách tay hoặc thậm chí là một điện thoại thông minh hiện đại với thiết lập phù hợp. Ngưỡng này quan trọng vì nó đánh dấu ranh giới giữa các mô hình yêu cầu cơ sở hạ tầng nghiêm túc và các mô hình mà bất kỳ ai cũng có thể triển khai. Không cần hóa đơn điện toán đám mây. Không cần chờ đợi giới hạn tốc độ API. Chỉ đơn giản là một mô hình chạy cục bộ, thực hiện công việc thực tế. Những gì bạn sẽ nhận được từ bài viết này: một cái nhìn tổng quan được chọn lọc về các mô hình ngôn ngữ nhỏ tốt nhất hiện có trên Hugging Face, mỗi mô hình thực sự giỏi về điều gì, các con số tiêu chuẩn hỗ trợ những tuyên bố đó và mã để bắt đầu với từng mô hình. # Tại sao các mô hình ngôn ngữ nhỏ đáng được bạn quan tâm ngay bây giờ Lý do thực tế mà hầu hết mọi người bỏ qua các mô hình nhỏ cho đến gần đây là vì chúng chưa đủ tốt. Một mô hình 3 tỷ tham số từ năm 2022 sẽ gặp khó khăn với suy luận đa bước, sụp đổ khi tạo mã và tạo ra các kết quả chung chung, dễ quên đối với bất kỳ điều gì tinh tế. Danh tiếng đó vẫn còn ngay cả khi các mô hình đã âm thầm trở nên tốt hơn rất nhiều. Ba điều đã thay đổi quỹ đạo: Dữ liệu huấn luyện tốt hơn, không phải nhiều hơn. Microsoft đã huấn luyện Phi-4-mini trên 5 nghìn tỷ token, nhưng trọng tâm là chất lượng. Dữ liệu tổng hợp được tạo ra để có mật độ suy luận cao, nội dung web công khai được lọc và tài liệu giáo dục có cấu trúc. Sự đặt cược đã được đền đáp. Một mô hình 3,8 tỷ tham số được huấn luyện cẩn thận trên dữ liệu phù hợp sẽ vượt trội hơn một mô hình 13 tỷ tham số được huấn luyện cẩu thả trên mọi thứ. Qwen3-0.6B, chỉ với 600 triệu tham số, hỗ trợ hơn 100 ngôn ngữ vì kho dữ liệu huấn luyện của nó được xây dựng với mục tiêu đó, chứ không phải là một ý nghĩ sau. Chưng cất từ các mô hình biên giới. DeepSeek-R1-Distill-Qwen-1.5B là mô hình 1.5B học cách suy luận bằng cách đào tạo về kết quả đầu ra từ một mô hình lý luận lớn hơn nhiều. Kết quả là một mô hình nhỏ có thể giải quyết từng vấn đề theo cách mà hai năm trước đây tưởng chừng như không thể thực hiện được ở quy mô đó. Chưng cất giờ đây đã trở thành một cuốn sách tiêu chuẩn: lấy một giáo viên có năng lực lớn, nén hành vi của họ thành một phần nhỏ các tham số. Cải tiến kiến trúc. Hỗn hợp các chuyên gia (MoE) đã thay đổi ý nghĩa của "số tham số". Gemma 3n E4B của Google có tổng cộng 8 tỷ tham số nhưng chỉ kích hoạt 4 tỷ mỗi mã thông báo; nó chạy trên dung lượng bộ nhớ của mẫu 4B trong khi sử dụng dung lượng của mẫu 8B. Cơ chế chú ý kết hợp và cửa sổ ngữ cảnh dài hơn (128K hiện phổ biến ngay cả trong các mô hình phụ 5B) đã đẩy các khả năng hơn nữa mà không làm tăng kích thước mô hình. Nếu bạn đã dành thời gian xem các trang mô hình Ôm Mặt, bạn sẽ biết chúng có thể dày đặc. Trước khi đi sâu vào danh sách mô hình, đây là bản phân tích nhanh các thuật ngữ sẽ xuất hiện nhiều lần. Thông số. Tham số là các trọng số bên trong một mô hình xác định cách nó phản hồi với đầu vào. Nhiều tham số hơn thường có nghĩa là có nhiều khả năng lưu trữ kiến thức hơn và xử lý các lý luận phức tạp hơn, nhưng không phải lúc nào cũng cho ra kết quả tốt hơn. Các điểm chuẩn bạn sẽ thấy được tham chiếu. MMLU-Pro là phiên bản khó hơn của bài kiểm tra Hiểu ngôn ngữ đa nhiệm lớn (MMLU) cổ điển. Nó bao gồm 57 môn học - luật, y học, lịch sử, vật lý, v.v. - với các lựa chọn câu trả lời được thiết kế thực sự khó. Điểm 50+ trên MMLU-Pro từ mẫu phụ 5B là đáng chú ý. Điểm trên 70 là đặc biệt. GSM8K (Toán học lớp 8K) là bộ 8.500 bài toán đố cấp lớp yêu cầu suy luận nhiều bước để giải. Nghe có vẻ đơn giản nhưng luôn tách biệt các mô hình suy luận với các mô hình phù hợp với mô hình. Điểm được báo cáo dưới dạng phần trăm các vấn đề được giải quyết chính xác. HumanEval kiểm tra việc tạo mã. Mô hình được cấp một chữ ký hàm Python và một chuỗi tài liệu, đồng thời nó phải viết mã vượt qua bộ kiểm tra ẩn. Điểm trên 60% từ mô hình dưới 5B thực sự ấn tượng. ARC-C (Thử thách suy luận AI2) là tập hợp các câu hỏi khoa học từ các bài kiểm tra tiêu chuẩn hóa, đặc biệt là những câu hỏi làm khó các hệ thống AI khác. Nó kiểm tra ý thức chung và lý luận khoa học. Mô hình cơ sở so với mô hình hướng dẫn và mô hình tư duy. Một mô hình cơ sở được đào tạo để dự đoán mã thông báo tiếp theo — nó tạo ra văn bản nhưng không tuân theo hướng dẫn một cách đáng tin cậy. Mô hình hướng dẫn đã được tinh chỉnh để đáp ứng một cách hữu ích các lời nhắc ở định dạng hội thoại. Đó là những gì bạn muốn cho hầu hết các ứng dụng. Các mô hình suy nghĩ hoặc lý luận (như "chế độ suy nghĩ" của Qwen3 hoặc các mô hình chưng cất DeepSeek-R1) tiến thêm một bước nữa: chúng tạo ra một quy trình lý luận chuỗi suy nghĩ trước khi trả lời, giúp cải thiện độ chính xác cho các vấn đề phức tạp với chi phí là