Năm phòng thí nghiệm, năm bộ óc: xây dựng một mô hình tài chính…

Trở lại các bài viết Năm phòng thí nghiệm, năm bộ óc: xây dựng một bộ phim tài chính đa mô hình trên các mô hình nhỏ Bài viết của nhóm được xuất bản Ngày 6/6/2026 Bình chọn - Lester Leong AdmiralTaco Theo dõi build-small-hackathon Tính không đồng nhất là sản phẩm, không phải là một ràng buộc Bất cân xứng thông tin cần một tường lửa Ký ức là một bộ phim rẻ tiền nếu bạn giới hạn nó Điều gì thực sự đã xảy ra Bài học kinh nghiệm khi xây dựng với các mô hình nhỏ Một báo cáo thực địa thứ hai về Build Small Hackathon: điều gì xảy ra khi mỗi tác nhân trong một nền kinh tế mới nổi chạy trên mô hình nhỏ của một phòng thí nghiệm khác, và người chơi trở thành nhà tài chính giật dây. Phiên bản đầu tiên của Thousand Token Wood là một hộp cát thần thời tiết: năm sinh vật rừng trên một mô hình 0.5B được tinh chỉnh đã trao đổi hàng hóa, và bạn tác động vào thế giới bằng các cú sốc và quan sát bong bóng và sự sụp đổ xuất hiện. Đó là một món đồ chơi thú vị. Nó cũng là thứ bạn chỉ xem chứ không chơi. Phiên bản 2 đã xây dựng lại nó thành một trò chơi mà bạn vận hành. Bạn là Người bảo trợ của Rừng, một nhà tài chính bí ẩn: bạn cho vay với lãi suất, thì thầm những lời khuyên có thể đúng hoặc được gài bẫy, bán khống thị trường, hối lộ và môi giới các liên minh, trong khi một quan tòa săn lùng bạn vì giao dịch dựa trên những gì bạn không nên biết. Các sinh vật nhớ cách bạn đối xử với chúng và lên kế hoạch trả đũa. Và thay đổi lớn nhất nằm ở bên trong: mỗi sinh vật giờ đây suy nghĩ bằng mô hình nhỏ của một phòng thí nghiệm khác. Đây là báo cáo kỹ thuật. Tính không đồng nhất là sản phẩm, không phải là một ràng buộc Cách rõ ràng để điều hành một hội đồng các tác nhân là một mô hình, nhiều lời nhắc. Phiên bản 2 chạy bốn mô hình: gpt-oss-20b (OpenAI), MiniCPM3-4B (OpenBMB), Nemotron-Mini-4B (NVIDIA) và một Qwen 0.5B được tinh chỉnh của riêng tôi. Mục đích không phải là sự mới lạ vì lợi ích của nó. Một thị trường thú vị khi những người tham gia thực sự khác biệt, và các mô hình của bốn phòng thí nghiệm được đào tạo trên các dữ liệu khác nhau với các quá trình hậu đào tạo khác nhau là những mô hình nhỏ khác biệt nhất có thể. Con cú tích trữ khác với cách con cáo đầu cơ. Hội đồng là một cuộc tranh luận trực tiếp, không phải một kịch bản. Việc thiết lập bốn mô hình riêng biệt trên một nền tảng đã đưa ra bài học thực sự: sự ma sát gần như hoàn toàn nằm ở lớp phục vụ, không phải lớp mô hình hóa. vLLM hiện tại (0.22.1) biên dịch JIT các nhân khi tải và cần có bộ công cụ CUDA (nvcc). Một hình ảnh cơ sở tinh gọn không đi kèm nó, vì vậy cả bốn mô hình đều thất bại giống hệt nhau với thông báo "không tìm thấy nvcc" cho đến khi tôi dựa chúng trên một hình ảnh phát triển CUDA. Đây không phải là một đặc điểm riêng của gpt-oss; nó phổ biến đối với phiên bản vLLM. Một bản sửa lỗi hình ảnh đã giải quyết mọi vấn đề. gpt-oss-20b chạy trong lượng tử hóa MXFP4 gốc của nó và phù hợp với L4 24GB với nhiều không gian trống; không cần GPU cao cấp. Nó cũng nói một định dạng kênh bao bọc câu trả lời trong một phần mở đầu phân tích, vì vậy người tiêu dùng phải trích xuất kênh cuối cùng. MiniCPM3 cần trust_remote_code; Nemotron tải sạch. Các vấn đề riêng của từng mô hình, mỗi vấn đề là một dòng cấu hình. Điều khiến bốn mô hình không đồng nhất trở nên khả thi là cùng một nguyên thủy đã làm cho một mô hình khả thi trong phiên bản 1: một lớp phân tích và sửa chữa JSON dung sai mà đầu ra của mọi mô hình đều đi qua. Các bộ mã hóa và thói quen định dạng khác nhau tạo ra các lỗi định dạng khác nhau; trình phân tích cú pháp loại bỏ những gì nó không thể cứu vãn và mô phỏng không bao giờ gặp sự cố. Xây dựng lớp đó một lần và việc thêm một mô hình chỉ là một mục cấu hình, không phải là một sự tái cấu trúc. Bất cân xứng thông tin cần một tường lửa Điểm cốt lõi của phiên bản v2 là thông tin nội bộ. Người chơi có thể thì thầm một lời khuyên cho một sinh vật, lời khuyên này có thể là thật (một dự báo thực tế về cơn sốt thị trường tiếp theo mà bộ bài sẽ rút ra, lợi thế thực sự của người chơi) hoặc giả (mồi nhử). Hành động theo một lời khuyên thật và thu lợi sẽ làm tăng "nhiệt độ" của người chơi; vượt qua một ngưỡng nhất định, quan tòa sẽ mở cuộc điều tra dẫn đến phạt tiền, đóng băng tài sản hoặc trục xuất. Để đây là một trò chơi thực sự, sự thật của một lời khuyên phải được giấu kín khỏi các sinh vật. Chúng chỉ thấy văn bản tin đồn; chúng không bao giờ được thấy cờ hiệu. Đây là một thuộc tính bảo mật, không phải là một tiện ích giao diện người dùng, và các tác nhân mô hình nhỏ làm cho nó trở nên sắc nét: mọi thứ mà mô hình có thể lặp lại đều là những gì người chơi đưa vào lời nhắc của nó. Vì vậy, cờ hiệu ẩn hoàn toàn nằm ngoài lời nhắc (trên sổ cái của người chơi), nó bị loại bỏ khỏi bản ghi sự kiện công khai khi xây dựng, và điều duy nhất mà người kể chuyện tóm tắt là các sự kiện công khai. Một bài kiểm tra duy nhất quét toàn bộ lời nhắc của mỗi sinh vật, mỗi lượt, để tìm các mã thông báo bị cấm. Bài kiểm tra đó là bài kiểm tra quan trọng nhất trong bộ. Khi người chơi cung cấp thông tin bí mật cho một tác nhân, hãy giả định rằng nó sẽ bị rò rỉ trừ khi một bài kiểm tra chứng minh rằng nó không thể. **Bộ nhớ là kịch tính rẻ tiền nếu người chơi giới hạn nó** Các sinh vật mang theo các mối quan hệ bền vững: một tình cảm có dấu hiệu đối với Người bảo trợ và đối với nhau, được thúc đẩy bởi các sự kiện (người chơi đã bán khống vụ mùa của tôi, người chơi đã trả nợ, người chơi đã liên minh tôi với một đối thủ). Một sinh vật trở nên thù địch sẽ từ chối các khoản vay của người chơi và đưa ra mức giá tệ hơn; các sinh vật đồng minh ngừng cạnh tranh lẫn nhau và hoạt động như một cartel. Cái bẫy là lạm phát lời nhắc. Lịch sử thô tăng lên không giới hạn và một mô hình nhỏ sẽ bị nhấn chìm trong đó. Cách khắc phục là không bao giờ đưa lịch sử vào lời nhắc: mô hình chỉ thấy một bản tóm tắt được phân loại một dòng ("bạn cảm thấy ấm áp với Oona, cảnh giác với Người bảo trợ"), được giới hạn ở một vài cảm xúc mạnh nhất, bắt nguồn từ tình cảm số nguyên. Các ghi chú được giữ lại để theo dõi nhưng được giới hạn và không bao giờ hiển thị. Sự thiên vị hành vi một phần là tự phát (bản tóm tắt thúc đẩy mô hình) và một phần là cơ học (một sinh vật thù địch mạnh mẽ từ chối một cách có chủ đích), vì vậy nó có thể quan sát và kiểm tra được chứ không phải là một hy vọng. **Điều gì thực sự đã xảy ra** Một lần chạy hội đồng đại diện, với toàn bộ cơ chế v2 hoạt động: | Đòn bẩy | Kết quả | |---|---| | Các mô hình trong hội đồng | 4 phòng thí nghiệm, tất cả dưới giới hạn 32B, được phục vụ trên Modal | | Độ tin cậy 0.5B được tinh chỉnh | 0% tự mua, 100% ưu đãi hợp lệ (đánh bại giáo viên 3B của nó) | | Tường lửa sự thật | 0 rò rỉ cờ hiệu ẩn của một lời khuyên trên mọi lời nhắc được quét | | Lợi thế thông tin nội bộ | một vị trí trước lời khuyên thật mang lại P&L dương; một lời khuyên giả thì không | | Nhiệt độ đến điều tra | hai chiến thắng đáng ngờ sạch sẽ vượt qua giới hạn của quan tòa | | Hủy hoại | một cuộc gọi ký quỹ và một khoản vay vỡ nợ trục xuất một sinh vật, sinh vật này trở lại một chương sau | Một lần chạy được gieo hạt duy nhất thực hiện Người bảo trợ, cuộc chiến thông tin, các mối quan hệ và đòn bẩy từ đầu đến cuối.

Năm phòng thí nghiệm, năm bộ óc: xây dựng một mô hình tài chính đa mô hình dựa trên các mô hình nhỏ