Tôi đã nghĩ LoRA chỉ là một phương pháp tinh chỉnh giá rẻ. Bài…

Mở rộng quy mô: một hạ tầng được xây dựng trên các tập hợp bộ điều hợp (adapter) đa dạng, cùng tồn tại, mở khóa trí tuệ tập thể mà không cần huấn luyện lại mô hình nền tảng. Trong khoảng tám tháng, tôi đã hoàn toàn nắm vững LoRA. Hoặc tôi đã nghĩ như vậy. Tôi biết rõ về nó: đóng băng mô hình cơ sở, đưa vào hai ma trận hạng thấp nhỏ, huấn luyện một phần nhỏ các tham số, đạt được hầu hết hiệu suất với chi phí thấp. Thực tế. Hiệu quả. Một giải pháp thay thế tiết kiệm cho mô hình "thực sự". Tôi đã sử dụng nó chính xác theo cách đó – tinh chỉnh một bộ điều hợp tác vụ, loại bỏ nó khi tác vụ thay đổi, sau đó tinh chỉnh một bộ điều hợp khác. Sau đó, một bài báo đã được công bố vào tháng 7 này.

Mở rộng quy mô: một cơ sở hạ tầng được xây dựng trên các tập hợp bộ điều hợp đa dạng, cùng tồn tại sẽ mở khóa trí tuệ tập thể mà không cần đào tạo lại nền tảng. Trong khoảng tám tháng, tôi đã hoàn toàn nắm vững LoRA. Hoặc tôi đã nghĩ vậy. Tôi biết ý tưởng: đóng băng mô hình cơ sở, đưa vào hai ma trận hạng thấp nhỏ, đào tạo một phần nhỏ các tham số, đạt được hầu hết hiệu suất với chi phí thấp. Thực tế. Hiệu quả. Một giải pháp thay thế tiết kiệm cho thứ "thực sự". Tôi đã sử dụng nó chính xác theo cách đó — tinh chỉnh một bộ điều hợp tác vụ, loại bỏ nó khi tác vụ thay đổi, tinh chỉnh một bộ điều hợp khác. Sau đó, một bài báo được công bố vào tháng 6 này đã khiến tôi phải dừng lại và đọc lại cùng một bản tóm tắt ba lần. Bài báo có tiêu đề "Về quy mô của PEFT: Hướng tới hàng triệu mô hình cá nhân với hàng nghìn tỷ tham số" — được xuất bản vào tháng 6/2026 bởi Mind Lab — và lập luận trung tâm của nó là gần như tất cả mọi người trong cộng đồng ML, bao gồm cả tôi, đã nghĩ sai về việc tinh chỉnh LoRA. Không phải sai theo nghĩa hỏng, mà sai theo nghĩa quá nhỏ. Bài báo không chỉ là một nghiên cứu PEFT tăng dần khác. Đó là một sự định hình lại mục đích của việc tinh chỉnh LoRA. Hãy để tôi giải thích một cách đơn giản, bởi vì điều này đáng để bạn dành thời gian. Điều mọi người hiểu sai về tinh chỉnh LoRA Đây là mô hình tư duy mà hầu hết chúng ta đều có: LoRA là một thủ thuật nén. Bạn không đủ khả năng để tinh chỉnh một mô hình 70B? Hãy sử dụng LoRA. Bạn muốn triển khai mười biến thể tác vụ mà không cần mười điểm kiểm tra riêng biệt? Hãy sử dụng LoRA. Nó hiệu quả. Nó thực tế. Đó là một giải pháp thay thế. Vấn đề là cách nhìn nhận này coi các bộ điều hợp LoRA là có thể loại bỏ. Sử dụng chúng, loại bỏ chúng, bắt đầu lại từ đầu. Bài báo của Mind Lab đặt ra một câu hỏi hoàn toàn khác: điều gì sẽ xảy ra nếu một bộ điều hợp LoRA không phải là một tạo tác tạm thời mà là một phần bản sắc bền vững? Điều gì sẽ xảy ra nếu, thay vì nghĩ về các bộ điều hợp như các mô hình tinh chỉnh rẻ hơn, chúng ta nghĩ về chúng như những trạng thái hành vi nhỏ, bền vững — những thứ có thể tích lũy sở thích, thói quen, kỹ năng và ký ức của một người theo thời gian, nằm trên một nền tảng chung cố định? Sự thay đổi trong cách nhìn nhận đó thay đổi mọi thứ về cách bạn thiết kế một hệ thống. Bài báo rất cẩn thận về những gì nó tuyên bố. Nó không nói LoRA thay thế các hệ thống truy xuất hoặc lưu trữ toàn bộ cuộc đời của một người. Nó nói một điều hẹp hơn nhưng thực sự thú vị: một bộ điều hợp nhỏ có thể là một đơn vị thực tế của cá tính bền vững, đủ hiệu quả để tồn tại ở quy mô dân số. Mô hình cơ sở cung cấp bộ não. Bộ điều hợp mang tính cách. Sự tương đồng về bộ gen thay đổi mọi thứ Bài báo sử dụng một phép tương tự sinh học mà tôi không thể ngừng suy nghĩ về nó, và đó là cách rõ ràng nhất để giải thích tầm nhìn. Bất kỳ hai con người nào cũng chia sẻ hơn 99,9% DNA của họ. Sự khác biệt di truyền làm cho mỗi người trở nên khác biệt — ngoại hình, xu hướng tính cách, khả năng mắc một số bệnh nhất định — chỉ chiếm chưa đến 1% tổng bộ gen. Một sinh học chung hỗ trợ hàng tỷ cuộc sống cá nhân, bền vững, mỗi cuộc sống tích lũy sự phát triển, kinh nghiệm và ký ức của riêng mình theo thời gian. Bài báo lập luận rằng các mô hình nền tảng có thể đi theo quỹ đạo tương tự. Một mô hình cơ sở nghìn tỷ tham số là bộ gen chung. Một bộ điều hợp LoRA — chiếm chưa đến 1% tổng không gian tham số — là sự biến đổi cá nhân. Một nền tảng chung, hàng triệu phiên bản mô hình cá nhân bền vững, mỗi phiên bản được định hình bởi một lịch sử tương tác khác nhau. Đây không chỉ là một phép ẩn dụ hay. Đó là một đặc tả thiết kế. Các tác giả tổ chức toàn bộ trường hợp kỹ thuật xung quanh ba trục mở rộng quy mô phải hoạt động để — và thành thật mà nói, tôi nghĩ cấu trúc ba phần này là một trong những khuôn khổ rõ ràng nhất mà tôi từng thấy để suy nghĩ về nơi cá nhân hóa LLM thực sự cần hướng tới. Mở rộng quy mô: Tại sao các mô hình cơ sở lớn hơn làm cho LoRA hữu ích hơn, không kém hơn Đây là nơi nhiều trực giác bị phá vỡ. Bạn có thể cho rằng khi các mô hình cơ sở trở nên lớn hơn và có khả năng hơn, các bộ điều hợp LoRA trở nên ít cần thiết hơn — mô hình đã biết mọi thứ, vậy bộ điều hợp đang làm gì? Bài báo lập luận ngược lại. Một mô hình cơ sở mạnh hơn làm cho một bộ điều hợp nhỏ có giá trị hơn, không kém hơn. Hiểu biết cốt lõi là về học tăng cường (RL). Khi bạn huấn luyện với RL, bạn chỉ có thể củng cố các hành vi mà mô hình đã có thể thực hiện, ít nhất là yếu. Mô hình cơ sở xác định những quỹ đạo nào có thể đạt được. Một mô hình cơ sở yếu hiếm khi truy cập các mẫu suy luận hữu ích, có phần thưởng cao mà bạn đang cố gắng củng cố — vì vậy RL trở nên nhiễu và tốn kém. Một mô hình cơ sở mạnh đã chứa nhiều hành vi tiềm ẩn đó ở dạng yếu hoặc không ổn định. RL sau đó có thể hoạt động ít giống một nhà phát minh và giống một bộ chọn hơn — làm sắc nét và ổn định những gì đã có. LoRA, theo quan điểm này, không chống lại mô hình cơ sở. Nó đang điều khiển nó. Và điều khiển một mô hình mạnh mẽ bằng một bộ điều hợp nhỏ hiệu quả hơn là cố gắng xây dựng khả năng từ đầu bằng một bộ điều hợp lớn. Bài báo ủng hộ điều này bằng một so sánh thực sự đọng lại trong tôi: một mô hình 32B với bộ điều hợp LoRA (chỉ sử dụng 70 triệu tham số có thể huấn luyện) đạt được mức tăng hiệu suất chuẩn hóa lớn hơn trên các điểm chuẩn suy luận so với một mô hình 1.5B được huấn luyện với RL đầy đủ sử dụng 1,5 tỷ tham số có thể huấn luyện. Ít tham số có thể huấn luyện hơn, ưu tiên mạnh hơn, kết quả tốt hơn. Kết quả thực tế? Khi ngân sách cố định, sức mạnh của những gì bạn đang điều chỉnh quan trọng hơn kích thước của bề mặt có thể huấn luyện. Thu nhỏ quy mô: Bộ điều hợp có thể nhỏ đến mức nào? Bằng cách khởi tạo các bộ điều hợp từ các vectơ đơn lẻ nhỏ, OLoRA-tail tránh được sự biến động huấn luyện sớm, đạt được sự ổn định hoàn hảo ngay cả ở hạng 1. Đây là lúc tôi có khoảnh khắc "chà, tôi đã làm sai điều này". Quan niệm thông thường về hạng LoRA là: hạng cao hơn = hiệu suất tốt hơn, hạng thấp hơn = rẻ hơn nhưng yếu hơn. Bài báo thực hiện một loạt 216 thử nghiệm trên chín hạng, bốn kích thước lô và sáu hạt giống ngẫu nhiên trên Qwen3–8B — và tìm thấy điều gì đó thú vị hơn một sự đánh đổi đơn giản. Hành vi tách thành ba vùng riêng biệt, không phải là một đường cong trơn tru. Hạng 16–32 là điểm tối ưu triển khai: hiệu suất trung bình mạnh.

Tôi đã nghĩ LoRA chỉ là một phương pháp tinh chỉnh giá rẻ. Bài báo này đã chứng minh tôi sai.