Bạn có thể tự xây dựng mô hình ngôn ngữ lớn (LLM) của riêng…

Công nghệ cuối cùng đã nằm trong tầm tay của các cá nhân và nhóm nhỏ, đây chính là lý do tại sao nhiều người trong số họ sắp lãng phí rất nhiều tiền. Quyết định tự xây dựng hay mua ngoài chủ yếu là một bài toán tính toán, và hầu hết mọi người đang giải quyết sai. Có một khoảnh khắc cụ thể sẽ tác động đến nhiều kỹ sư vào năm 2026. Bạn đã thanh toán hóa đơn API cho OpenAI hoặc Anthropic trong nhiều tháng, theo dõi chi phí mỗi token tăng lên, và một suy nghĩ chợt nảy ra: tại sao mình lại thuê cái này? Các mô hình đã có sẵn. Phần cứng có giá cả phải chăng. Mình có thể tự xây dựng. Và suy nghĩ đó không hề điên rồ. Đó là điều thực sự mới mẻ về

Công nghệ này cuối cùng đã nằm trong tầm tay của các cá nhân và nhóm nhỏ, và đây chính là lý do tại sao rất nhiều người sắp lãng phí rất nhiều tiền. Quyết định tự xây dựng hay mua ngoài chủ yếu là một bài toán tính toán, và hầu hết mọi người đang giải quyết nó sai cách. Có một khoảnh khắc cụ thể sẽ tác động đến nhiều kỹ sư vào năm 2026. Bạn đã thanh toán hóa đơn API cho OpenAI hoặc Anthropic trong nhiều tháng, theo dõi chi phí mỗi token tăng lên, và một suy nghĩ chợt nảy ra: tại sao mình lại phải thuê cái này? Các mô hình đã có sẵn. Phần cứng có giá cả phải chăng. Mình có thể tự xây dựng. Và suy nghĩ đó không hề điên rồ. Đó là điều thực sự mới mẻ trong thời điểm này. Năm năm trước, việc đào tạo hoặc chạy mô hình ngôn ngữ có khả năng của riêng bạn là lãnh địa độc quyền của các phòng thí nghiệm nghiên cứu lớn. Ngày nay, một GPU tiêu dùng duy nhất có thể tinh chỉnh một mô hình 7 tỷ tham số trong một buổi chiều. Khao khát lãng mạn muốn sở hữu trí tuệ của mình thay vì thuê nó, lần đầu tiên, trở nên khả thi về mặt kỹ thuật. Tuy nhiên, đối với hầu hết mọi người, điều này lại sai về mặt tài chính. Không phải vì việc tự xây dựng khó khăn, mà vì các phép toán gần như không bao giờ diễn ra theo cách mà các quảng cáo cho thuê GPU thể hiện. Trước khi bạn thiết lập một cụm máy chủ, điều đáng giá là xem xét kỹ lưỡng quyết định thực tế, bởi vì nó ít là một câu hỏi triết học về sự độc lập mà thiên về một bài toán số học về quy mô, mức độ sử dụng và chi phí ẩn. Và bài toán số học này có một câu trả lời rõ ràng cho hầu hết các tình huống, chỉ có điều có lẽ không phải là điều bạn đang mong đợi. Đầu tiên, hãy làm rõ "tự xây dựng" thực sự có nghĩa là gì. Cụm từ "tự xây dựng LLM của riêng bạn" ẩn chứa ít nhất bốn dự án hoàn toàn khác nhau, và việc nhầm lẫn chúng là cách mọi người cuối cùng bị bối rối về chi phí. Ở mức độ tham vọng nhất là đào tạo một mô hình tiên tiến từ đầu, một đối thủ cạnh tranh của GPT hoặc Claude. Hãy quên điều đó đi. Việc này đòi hỏi hàng trăm triệu đô la chi phí tính toán, một tổ chức nghiên cứu và dữ liệu độc quyền ở quy mô mà bạn không có. Bất cứ ai nói với bạn rằng một cá nhân có thể làm được điều này đều đang bán một thứ gì đó. Một bước thấp hơn là đào tạo trước một mô hình nhỏ từ đầu, với hàng triệu đến vài tỷ tham số, trên dữ liệu của riêng bạn. Điều này thực sự có thể thực hiện được trên một GPU duy nhất hoặc một hệ thống đám mây khiêm tốn, và đó là một cách tuyệt vời để thực sự hiểu cách các hệ thống này hoạt động. Nhưng kết quả sẽ không cạnh tranh được với một mô hình tiên tiến để sử dụng chung. Đó là một quá trình giáo dục, không phải là một sản phẩm. Lựa chọn thứ ba, và là điều mà hầu hết mọi người thực sự muốn nói khi họ nói "tự xây dựng", là tinh chỉnh một mô hình mở hiện có như Llama, Mistral hoặc Qwen, điều chỉnh nó cho lĩnh vực, dữ liệu hoặc giọng điệu của bạn. Đây là con đường trung gian thực tế, và chúng ta sẽ dành phần lớn thời gian ở đây. Thứ tư là xây dựng một hệ thống dựa trên các mô hình hiện có, với khả năng truy xuất, tác nhân và điều phối, đây là một lĩnh vực hoàn toàn khác và không thực sự là "xây dựng một mô hình" chút nào. Khi bạn loại bỏ ảo tưởng ở trên cùng và sự nhầm lẫn ở dưới cùng, quyết định thực sự hẹp hơn so với những gì nó nghe có vẻ: bạn nên tinh chỉnh và tự lưu trữ một mô hình mở, hay tiếp tục gọi API của người khác? Đó là câu hỏi có một câu trả lời thực sự. Câu trả lời mặc định là thuê, và các con số không hề gần nhau. Đây là phần khiến mọi người ngạc nhiên. Đối với phần lớn các trường hợp sử dụng, việc gọi API không chỉ dễ dàng hơn việc tự lưu trữ, mà còn rẻ hơn, và thường là với một biên độ lớn. Hãy xem xét một khối lượng công việc cụ thể là 50 triệu token mỗi ngày, đây là một ứng dụng đáng kể. Chạy khối lượng công việc đó thông qua một mô hình được lưu trữ như GPT-4o-mini và bạn sẽ phải trả khoảng 2.250 USD mỗi tháng. Chạy chính xác khối lượng công việc đó trên cụm máy chủ của riêng bạn gồm bốn GPU tầm trung và... chi phí thực tế lên tới 5.175 USD mỗi tháng. Tuyến đường được cho là giúp tiết kiệm chi phí lại đắt hơn khoảng 2,3 lần. Tuy nhiên, ở đâu đó vào lúc này, một kỹ sư đang cấp phát một phiên bản H100 và mô tả nó với sếp của mình như một giải pháp tối ưu hóa chi phí. Lý do con số tự lưu trữ cao hơn nhiều là điều mà giá phần cứng không bao giờ cho bạn thấy. GPU là phần rẻ tiền. Điều bạn thực sự phải chi trả là toàn bộ hệ thống xung quanh nó: một người để thiết lập máy chủ suy luận, điều chỉnh kích thước lô (batch sizes), quản lý các phiên bản CUDA, giám sát hệ thống và giữ cho nó hoạt động lúc 3 giờ sáng khi nó gặp sự cố. Một cách thận trọng, việc triển khai tự lưu trữ tiêu tốn từ 10 đến 20 giờ làm việc của kỹ sư lành nghề mỗi tháng, và với mức lương hiện tại của một kỹ sư ML hoặc DevOps cấp cao, riêng chi phí nhân công đã là 750 đến 3.000 USD mỗi tháng trước khi bạn phải trả tiền cho một watt điện nào. Cộng tất cả lại, việc tự lưu trữ thường tốn gấp ba đến năm lần giá GPU thô. Mức giá theo giờ được quảng cáo cho chip chỉ là một phần nhỏ của hóa đơn thực tế. Yếu tố cốt lõi đằng sau tất cả những điều này là mức độ sử dụng. Kinh tế tự lưu trữ chỉ hiệu quả nếu bạn giữ cho GPU đắt tiền đó luôn bận rộn. Một chip hoạt động hết công suất sẽ hiệu quả. Một chip hoạt hoạt động ở mức tải 10% trong khi chờ yêu cầu đã biến chi phí đơn vị rẻ của bạn thành thứ tồi tệ hơn mười lần, bởi vì bạn cũng phải trả tiền cho những giờ nhàn rỗi. Giá API, bất kể mức tăng giá của nó, có một ưu điểm lớn: bạn chỉ trả tiền cho những gì bạn sử dụng, và người khác chịu chi phí cho dung lượng nhàn rỗi. Vậy khi nào việc tự xây dựng thực sự mang lại lợi ích? Nó thực sự mang lại lợi ích, trong những tình huống cụ thể và có thể xác định được, và đây là lúc khung quyết định phát huy tác dụng. Sự thay đổi chủ yếu liên quan đến quy mô, và bạn có thể đưa ra những con số ước tính. Nếu chi tiêu hàng năm dự kiến của bạn cho một API được lưu trữ dưới khoảng 50.000 USD, hãy ngừng nghĩ đến việc tự xây dựng. Hãy tiếp tục thuê. Khoản tiết kiệm từ việc tự lưu trữ ở mức đó không thể bù đắp chi phí kỹ thuật, chấm hết. Trong khoảng từ 50.000 USD đến 500.000 USD mỗi năm, một thiết lập hỗn hợp bắt đầu có ý nghĩa, nơi bạn phục vụ phần lớn lưu lượng truy cập dễ dàng bằng một mô hình được lưu trữ rẻ tiền và tự lưu trữ một mô hình được tinh chỉnh cho phân khúc khối lượng lớn cụ thể nơi nó mang lại lợi nhuận. Trên 500.000 USD mỗi năm chi tiêu API tương đương, với một GPU mà bạn thực sự có thể giữ bận rộn, một cụm được sử dụng tốt chạy một mô hình mở được tinh chỉnh gần như luôn thắng về chi phí. Ở quy mô đó, chi phí chung là một sai số làm tròn so với khoản tiết kiệm. Nhưng chi phí không phải là yếu tố duy nhất, và đối với một số người, nó thậm chí không phải là yếu tố quyết định. Có những lý do để tự xây dựng.

Bạn có thể tự xây dựng mô hình ngôn ngữ lớn (LLM) của riêng mình. Nhưng đây là lý do tại sao bạn có lẽ không nên làm vậy.