Tinh chỉnh VLM để xây dựng ứng dụng chấm điểm thời trang trên…

Chấm điểm trang phục bằng AI. Ngoại tuyến. Liệu điều này có thể thực hiện được? Phong cách là một yếu tố định tính. Không có một câu trả lời duy nhất. AI có thể đưa ra một câu trả lời chung chung, nhưng liệu nó có thể trả lời những vấn đề như thời trang, nơi các tiêu chí thay đổi theo văn hóa? Có một cách. Bài viết này ghi lại quá trình xây dựng một ứng dụng chấm điểm thời trang hoàn toàn ngoại tuyến trên iPhone bằng cách sử dụng Mô hình ngôn ngữ lớn thị giác (VLM). Cách tiếp cận Sử dụng một hệ thống tiêu chí đánh giá khép kín. Mọi đánh giá thẩm mỹ hoặc triết học đều có nhiều trường phái tư tưởng, và thật khó để đưa ra một câu trả lời mở thỏa mãn mọi tiêu chí có thể. Nhưng trong một trường phái duy nhất — dù là trong lĩnh vực thời trang

Chấm điểm trang phục bằng AI. Ngoại tuyến. Liệu điều này có thể thực hiện được? Phong cách là một khái niệm định tính. Không có một câu trả lời duy nhất. AI có thể đưa ra một câu trả lời chung chung, nhưng liệu nó có thể trả lời những vấn đề như thời trang, nơi các tiêu chí thay đổi theo văn hóa? Có một cách. Bài viết này ghi lại quá trình xây dựng một ứng dụng chấm điểm thời trang hoàn toàn ngoại tuyến trên iPhone bằng cách sử dụng Mô hình ngôn ngữ lớn thị giác (VLM). Cách tiếp cận Sử dụng một hệ thống tiêu chí đánh giá khép kín. Mỗi đánh giá thẩm mỹ hoặc triết học đều có nhiều trường phái tư tưởng, và rất khó để đưa ra một câu trả lời mở thỏa mãn mọi tiêu chí có thể. Nhưng trong một trường phái duy nhất – dù là trong thời trang, thể thao hay công việc chuyên môn – có những trường hợp mà câu trả lời đúng được xác định trong một hệ thống khép kín. Ví dụ, ở đây tôi đã tham khảo ý tưởng về "sự cân bằng giữa trang trọng và đời thường", được phổ biến rộng rãi cho công chúng bởi người có ảnh hưởng về thời trang nam giới Nhật Bản "MB", và coi "nếu sự cân bằng giữa trang trọng và đời thường gần với tỷ lệ 7:3, nó trông sẽ sành điệu" làm trục, chấm điểm các hình ảnh đầu vào dựa trên trục này. (Đây là cách diễn giải của riêng tôi từ việc đọc blog của MB và các nguồn khác.) Mỗi món đồ trong một bộ trang phục – áo, quần, giày – được chấm điểm theo một tiêu chuẩn có hệ thống hóa. Một AI (LLM) có thể làm điều này. Và nó làm khá tốt. Ngay cả khoảng 1.000 ví dụ đào tạo cũng đủ. Bạn không cần phải học mọi món đồ có thể; nó ngoại suy cho những món đồ chưa từng thấy. Đó là chủ đề thực sự ở đây. Hơn cả việc chấm điểm thời trang, chủ đề là mức độ phù hợp của một LLM trong việc xử lý một "hệ thống khép kín". Các mô hình nhỏ có thể chạy trên iPhone rất phù hợp với loại tinh chỉnh theo miền cụ thể này. Với ít tham số hơn, việc đào tạo sẽ rẻ. Cách tiếp cận này không chỉ hoạt động cho thời trang mà còn cho bất cứ điều gì mà câu trả lời được thiết lập trong một hệ thống khép kín của một trường phái nhất định – trang điểm, hình thức thể thao, bói toán, v.v. Cách xây dựng Tinh chỉnh bằng cách chưng cất tri thức: Giáo viên = mô hình lớn (Qwen3-VL-235B-A22B) Học sinh = mô hình nhỏ (Qwen3-VL-2B) Đưa một tài liệu lý thuyết (~10KB: định nghĩa 5 trục + bảng cơ sở + quy tắc tổng hợp + quy tắc đầu ra) cho mô hình lớn dưới dạng lời nhắc, và yêu cầu nó chấm điểm các hình ảnh đào tạo theo tài liệu đó. Chỉ mô hình lớn mới có thể làm điều này; mô hình nhỏ không thể chứa toàn bộ tài liệu lý thuyết. Sử dụng tập hợp (đầu vào hình ảnh được cung cấp cho mô hình lớn, đầu ra mà mô hình lớn tạo ra), tinh chỉnh mô hình nhỏ. Bây giờ mô hình nhỏ có thể tạo ra đầu ra dựa trên hệ thống lý thuyết. Nó không biết tài liệu lý thuyết, nhưng nó có thể thực hiện quy trình đã được tích hợp. Chỉ riêng đối với đánh giá miền khép kín này, mô hình nhỏ có thể bắt chước hành vi của một mô hình lớn gấp 10–100 lần kích thước của nó. Cách hoạt động Đầu vào: hình ảnh Đầu ra: nhãn JSON có cấu trúc cố định Đào tạo Qwen3-VL 2B trên các bộ ba (hình ảnh, câu hỏi cố định, JSON) thông qua tinh chỉnh LoRA (học sinh) Chuyển đổi sang CoreML -> iPhone -> chấm điểm hoàn toàn ngoại tuyến Vì nó "khép kín", khoảng 800 hình ảnh là đủ. Ánh xạ có entropy thấp, vì vậy nếu giáo viên phát ra nhãn theo các quy tắc nhất quán, ngay cả một tập hợp nhỏ cũng cho phép học sinh tái tạo các quy tắc đó. Phần có đòn bẩy cao nhất là "tài liệu lý thuyết" Tệp có ảnh hưởng nhất trong quy trình này không phải là tập lệnh đào tạo cũng không phải là định nghĩa mô hình – đó là tài liệu lý thuyết (hướng dẫn cho giáo viên). Viết một tài liệu lý thuyết chân thực là điều duy nhất bạn không thể bỏ qua. Cấu trúc đầu ra (tái tạo của tác giả) JSON mà tôi yêu cầu học sinh phát ra trông đại khái như thế này (một cấu trúc triển khai, không phải văn bản từ bất kỳ nguồn gốc nào): { "items": [ { "category": "tops", "description": "áo sơ mi cotton trắng", "scores": { "color": 5, "silhouette": 4, "material": 4, "design": 4, "item_type": 4 }, "item_dress_score": 4.2 }, { "category": "bottoms", "description": "quần tây đen bó sát", "scores": { "color": 5, "silhouette": 4, "material": 4, "design": 4, "item_type": 4 }, "item_dress_score": 4.3 } ], "overall_dress_ratio": 0.71, "coordinate_silhouette": { "type": "I", "style_score": 4, "rationale": "..." }, "target_ratio": 0.70, "verdict": "Tỷ lệ gần lý tưởng 7:3 cho trang phục đường phố. Trang trọng hơn một chút; đủ gọn gàng.", "advice": "..." } Triển khai và số liệu Vai trò Lựa chọn Ghi chú Mô hình cơ sở Qwen/Qwen3-VL-2B-Instruct fp16/int8 ổn định trên Apple Silicon; đã xuất xưởng (so sánh) mô hình cơ sở thay thế google/gemma-4-E2B-it sơ đồ bị sụp đổ ở int4; bị bỏ qua để tinh chỉnh Trình gắn nhãn giáo viên Qwen3-VL-235B-A22B đọc lý thuyết và đánh giá JSON Huấn luyện LoRA rank16 / alpha32, chỉ language_model.*, vision bị đóng băng ~25 phút trên Colab A100 Chuyển đổi coreml-llm Qwen3-VL pipeline có trạng thái MLState + slice_update KV Thiết bị iPhone 17 Pro (A19 ANE) 2.3GB int8 / ~24 token/giây Dữ liệu huấn luyện bao gồm khoảng 800–900 ảnh trang phục toàn thân từ Unsplash + Pexels (khoảng 750 ảnh được sử dụng để huấn luyện). Một lần lặp (thu thập → gắn nhãn → huấn luyện → chuyển đổi → chuyển giao) mất khoảng 2,5 giờ. Kết luận: một "công cụ chấm điểm chuyên dụng" vừa vặn trong túi của bạn Kiến thức chuyên biệt có thể được viết thành một hệ thống khép kín sẽ chạy nhanh hơn, rẻ hơn, nhất quán hơn và riêng tư hơn khi được chắt lọc toàn bộ vào một mô hình 2B trên thiết bị, thay vì sử dụng một API khổng lồ. Nếu một mô hình tổng quát khổng lồ là "một cố vấn biết một chút về mọi thứ", thì những gì tôi đã xây dựng ở đây là một cách để đặt "một người chấm điểm đã được đào tạo một tiêu chuẩn chứng nhận vào cơ thể của họ" vào túi của bạn. Chấm điểm, đánh giá, chứng nhận, trích xuất sơ đồ cố định — thế giới có rất nhiều "hệ thống khép kín" đáng ngạc nhiên, và bất kỳ hệ thống nào trong số đó đều có thể được "nướng" thành kích thước thiết bị với cùng một mô hình. ※ Xin nhắc lại: việc triển khai này không được giám sát hoặc chứng thực bởi bất kỳ cá nhân hoặc tổ chức cụ thể nào; đây là một sự tái tạo độc lập các ý tưởng đã được biết đến rộng rãi để xác thực kỹ thuật. Các điểm số không đại diện cho bất kỳ "câu trả lời đúng" nào. Lưu ý Ý tưởng mà bài viết này xây dựng — "chuyển đổi sự cân bằng giữa trang trọng và thường ngày sang tỷ lệ 7:3" — đề cập đến một ý tưởng được biết đến rộng rãi trong thời trang nam giới Nhật Bản. Các trục chấm điểm, sơ đồ JSON, thiết kế lời nhắc và quy tắc tổng hợp ở đây là sự tái tạo của riêng tôi cho mục đích kỹ thuật.

Tinh chỉnh VLM để xây dựng ứng dụng chấm điểm thời trang trên thiết bị