5 điều thú vị tôi đã làm với các mô hình ngôn ngữ cục bộ

Tôi đã sử dụng các mô hình cục bộ (local models) trong quy trình làm việc hàng ngày một thời gian, và điều khiến tôi ngạc nhiên nhất là việc các mô hình cục bộ thường xuyên trở thành lựa chọn tốt hơn, chứ không phải là một sự thỏa hiệp.

5 Điều Thú Vị Tôi Đã Làm với Các Mô hình Ngôn ngữ Cục bộ - KDnuggets Blog Bài viết hàng đầu Giới thiệu Chủ đề AI Lời khuyên nghề nghiệp Thị giác máy tính Kỹ thuật dữ liệu Khoa học dữ liệu Mô hình ngôn ngữ Học máy MLOps NLP Lập trình Python SQL Bộ dữ liệu Sự kiện Tài nguyên Bảng gian lận Đề xuất Báo cáo kỹ thuật Quảng cáo Tham gia Bản tin 5 Điều Thú Vị Tôi Đã Làm với Các Mô hình Ngôn ngữ Cục bộ Tôi đã chạy các mô hình cục bộ như một phần công việc hàng ngày của mình trong một thời gian, và điều khiến tôi ngạc nhiên nhất là việc các mô hình cục bộ thường xuyên trở thành lựa chọn tốt hơn, chứ không phải là một sự thỏa hiệp. Bởi Shittu Olumide, Chuyên gia Nội dung Kỹ thuật vào ngày 18/5/2026 trong Mô hình Ngôn ngữ # Giới thiệu Lần đầu tiên bạn chạy `ollama run llama3.2` trong một thiết bị đầu cuối và chứng kiến một mô hình 7 tỷ tham số được tải lên máy tính của chính bạn — không cần khóa API, không có bảng điều khiển thanh toán, không có dữ liệu rời khỏi máy tính của bạn — có một sự thay đổi. Không phải vì nó ấn tượng về mặt kỹ thuật, mặc dù đúng là như vậy. Mà bởi vì nó nhanh, nó có khả năng và nó hoàn toàn là của bạn. Bạn sở hữu cuộc trò chuyện. Không ai ghi lại nó. Không ai tính phí bạn theo từng token. Mô hình không biết hoặc không quan tâm rằng bạn đang ngoại tuyến. Tôi đã chạy các mô hình cục bộ như một phần công việc hàng ngày của mình trong một thời gian, và điều khiến tôi ngạc nhiên nhất là việc các mô hình cục bộ thường xuyên trở thành lựa chọn tốt hơn, chứ không phải là một sự thỏa hiệp. Sau đây là năm điều tôi thực sự đã làm với các mô hình ngôn ngữ cục bộ mà tôi sẽ không làm (hoặc không thể làm) với một công cụ đám mây. Cũng có mã hoạt động ở những nơi cần thiết. "Cục bộ" có nghĩa là mô hình chạy trên máy của bạn. Thiết lập là Ollama, một công cụ giúp việc tải xuống và chạy các mô hình mã nguồn mở trở nên đơn giản như cài đặt bất kỳ ứng dụng nào khác. Hầu hết những gì sau đây hoạt động trên một máy có 8 GB RAM cho các mô hình nhỏ hơn, 16 GB để thoải mái hơn. Máy Mac Apple Silicon (M1 trở lên) xử lý việc này đáng ngạc nhiên tốt nhờ bộ nhớ hợp nhất. Một GPU NVIDIA chuyên dụng giúp tăng tốc đáng kể, nhưng đó không phải là yêu cầu để bắt đầu. # Dự án 1: Xây dựng một Bộ não Tài liệu Riêng tư Tôi làm việc với nhiều loại tài liệu nghiên cứu, hợp đồng và ghi chú dự án tích lũy nhanh hơn tôi có thể lập chỉ mục chúng một cách hợp lý. Đến một lúc nào đó, tôi có ba năm tài liệu PDF, một vài tài liệu Word và một thư mục ghi chú văn bản thuần túy đều nằm trên đĩa — về lý thuyết là hữu ích, nhưng không có tài liệu nào có thể tìm kiếm được một cách có ý nghĩa. Giải pháp rõ ràng là đưa chúng cho một AI và đặt câu hỏi. Vấn đề rõ ràng là việc tải hợp đồng và ghi chú nghiên cứu cá nhân lên một dịch vụ đám mây có nghĩa là chúng hiện đang nằm trên máy chủ của người khác, được xử lý bởi cơ sở hạ tầng của người khác và được lưu trữ theo chính sách lưu giữ của người khác. Đối với bất kỳ thông tin nhạy cảm nào — tài liệu pháp lý, hồ sơ y tế, tệp kinh doanh nội bộ, nhật ký cá nhân — sự đánh đổi đó rất khó để biện minh. Tôi đã thiết lập AnythingLLM chạy cục bộ với Llama 3.2 thông qua Ollama. AnythingLLM là một ứng dụng mã nguồn mở xử lý toàn bộ quy trình tạo sinh tăng cường truy xuất (RAG) — thu nạp tài liệu, phân đoạn, nhúng, lưu trữ vector và truy xuất — mà không phụ thuộc vào bất kỳ dịch vụ đám mây nào. Ứng dụng này có hơn 54.000 lượt gắn dấu sao trên GitHub và chạy hoàn toàn trên máy tính của người dùng. Người dùng chỉ cần kéo tài liệu vào, ứng dụng sẽ xử lý cục bộ và người dùng có thể bắt đầu đặt câu hỏi. Để chạy ứng dụng này, chỉ cần một lệnh: # Kéo và chạy AnythingLLM qua Docker # Mọi thứ vẫn nằm trên máy của bạn -- không có dữ liệu nào rời đi docker run -d \ --name anythingllm \ -p 3001:3001 \ -v anythingllm_storage:/app/server/storage \ mintplexlabs/anythingllm # Sau đó mở http://localhost:3001 trong trình duyệt của bạn # Kết nối nó với Ollama (đã chạy tại localhost:11434) # và kéo mô hình bạn muốn sử dụng để trò chuyện tài liệu ollama pull llama3.2:3b Tôi đã tải một thư mục chứa các bài báo nghiên cứu và đặt câu hỏi yêu cầu đọc qua nhiều tài liệu: Đây là lời nhắc tôi đã sử dụng: "Sự khác biệt chính trong cách các bài báo năm 2023 và 2025 tiếp cận việc tăng cường truy xuất là gì? Họ có đồng ý về chiến lược phân đoạn hay có sự bất đồng?" Mô hình đã trích xuất các phần phù hợp từ mỗi bài báo, trích dẫn tài liệu gốc của từng điểm và xác định một sự bất đồng về phương pháp luận thực sự mà tôi đã không nhận thấy khi đọc chúng riêng lẻ. Mọi byte của các bài báo đó đều nằm trên máy của tôi. Mô hình hoạt động tốt nhất cho việc này là Llama 3.2 3B để đạt tốc độ trên phần cứng nhẹ hơn, và Mistral 7B nếu bạn có 8 GB VRAM và muốn khả năng tổng hợp mạnh mẽ hơn trên các tài liệu dài hơn. Đối với việc hỏi đáp tài liệu trực tiếp trên máy có 16 GB RAM, sự khác biệt là đáng kể. Mistral đọc cẩn thận hơn. Tại sao điều này quan trọng: Đây là trường hợp sử dụng khiến RAG cục bộ thực sự tốt hơn đám mây — không chỉ tương đương. Tài liệu không di chuyển. AI di chuyển. Mọi thứ làm cho AI đám mây trở nên tuyệt vời — khả năng suy luận, tổng hợp và trả lời câu hỏi từ nhiều nguồn — đều hiện diện. Mọi thứ khiến nó không thoải mái đối với tài liệu nhạy cảm — việc truyền dữ liệu, ghi nhật ký phía máy chủ và sự phụ thuộc vào bên thứ ba — đều biến mất. # Dự án 2: Chạy một công cụ đánh giá mã không bao giờ phán xét bạn Có một loại lo lắng cụ thể khi đánh giá mã mà hầu hết các nhà phát triển sẽ nhận ra: bạn đã viết một cái gì đó hoạt động, nhưng bạn không tự hào về nó. Nó hơi thông minh theo những cách mà bạn trong tương lai sẽ hối tiếc. Bạn nghi ngờ có một trường hợp biên mà bạn chưa xử lý. Bạn muốn có phản hồi trung thực trước khi người khác nhìn thấy nó. Tuy nhiên, việc sử dụng AI đám mây có một nhược điểm rõ ràng. Dán mã sản xuất vào ChatGPT hoặc Claude có nghĩa là gửi tài sản trí tuệ của công ty bạn đến một máy chủ của bên thứ ba. Hầu hết các thỏa thuận không tiết lộ (NDA) của nhà tuyển dụng đều bao gồm điều này, cho dù có ai thực thi chúng hay không. Đây là một mối lo ngại thực sự, đặc biệt đối với các thuật toán độc quyền, nội bộ.