Quy trình làm việc của tôi để tìm hiểu kiến trúc LLM

Trong những tháng qua, nhiều người đã yêu cầu tôi chia sẻ quy trình làm việc của tôi về cách tôi tạo ra các bản phác thảo và bản vẽ kiến trúc LLM trong các bài báo, buổi nói chuyện và Thư viện LLM của tôi. Vì vậy, tôi nghĩ sẽ rất hữu ích nếu ghi lại quá trình mà tôi thường làm theo. Nói ngắn gọn là tôi thường bắt đầu với các báo cáo kỹ thuật chính thức, nhưng ngày nay, các bài viết thường ít chi tiết hơn trước đây, đặc biệt là đối với hầu hết các mẫu xe có trọng lượng mở từ các phòng thí nghiệm trong ngành. Điểm hay là nếu trọng số được chia sẻ trên Hugging Face Model Hub và mô hình được hỗ trợ trong thư viện Python Transformers, chúng ta thường có thể kiểm tra trực tiếp tệp cấu hình và cách triển khai tham chiếu để có thêm thông tin về chi tiết kiến trúc. Và mã “đang hoạt động” không nói dối. Hình 1: Động lực cơ bản của quy trình làm việc này là ngày nay các giấy tờ thường ít chi tiết hơn, nhưng việc triển khai tham chiếu công việc mang lại cho chúng ta điều gì đó cụ thể để kiểm tra. Tôi cũng nên nói rằng đây chủ yếu là quy trình làm việc dành cho các mẫu xe có trọng lượng mở. Nó không thực sự áp dụng cho các mô hình như ChatGPT, Claude hoặc Gemini, nơi trọng lượng và chi tiết là độc quyền. Ngoài ra, đây là một quá trình khá thủ công. Bạn có thể tự động hóa các phần của nó. Nhưng nếu mục tiêu là tìm hiểu cách các kiến trúc này hoạt động, thì theo tôi, thực hiện một vài kiến trúc này bằng tay vẫn là một trong những bài tập tốt nhất. Hình 2: Ở cấp độ cao, quy trình làm việc đi từ tệp cấu hình và mã đến hiểu biết sâu sắc về kiến trúc. Đọc thêm

Quy trình làm việc của tôi để tìm hiểu kiến ​​trúc LLM

Quy trình làm việc của tôi để tìm hiểu kiến trúc LLM