Ghi chú từ bên trong phòng thí nghiệm AI của Trung Quốc

Nhìn ra ngoài cửa sổ trên chuyến tàu cao tốc mới từ Hàng Châu đến Thượng Hải, tôi được ban tặng cho tầm nhìn ra những đường gờ ấn tượng lốm đốm những tua-bin gió in bóng dưới ánh mặt trời lặn. Những ngọn núi tạo nên phông nền cho sự kết hợp giữa những cánh đồng trải dài và những tòa nhà chọc trời tập trung. Tôi đang trở về từ Trung Quốc với lòng khiêm tốn vô cùng. Đó là một trải nghiệm rất ấm áp của con người khi được đi đến một nơi xa lạ và được chào đón như vậy. Tôi đã có vinh dự được gặp rất nhiều người trong hệ sinh thái AI mà tôi biết từ xa, và họ chào đón tôi bằng những nụ cười rạng rỡ và sự cổ vũ, nhắc nhở tôi rằng công việc của tôi và hệ sinh thái AI mang tính toàn cầu như thế nào. Interconnects AI là một ấn phẩm được người đọc hỗ trợ. Hãy cân nhắc việc trở thành người đăng ký. Tâm lý của các nhà nghiên cứu Trung Quốc Các công ty Trung Quốc xây dựng mô hình ngôn ngữ được coi là những người đi sau hoàn hảo về công nghệ, xây dựng dựa trên truyền thống văn hóa lâu đời trong giáo dục và công việc, cùng với các cách tiếp cận khác nhau một cách tinh tế để xây dựng các công ty công nghệ. Khi bạn nhìn vào kết quả đầu ra, những mô hình mới nhất, lớn nhất cho phép quy trình làm việc tác nhân và các thành phần, các nhà khoa học xuất sắc, dữ liệu quy mô lớn và điện toán tăng tốc, các phòng thí nghiệm của Trung Quốc và Mỹ trông gần như giống nhau. Những khác biệt lâu dài xuất hiện trong cách chúng được tổ chức và điều kiện hóa. Từ lâu, tôi đã nghĩ rằng lý do khiến các phòng thí nghiệm Trung Quốc rất giỏi trong việc bắt kịp và theo kịp giới hạn là vì họ phù hợp về mặt văn hóa cho nhiệm vụ này, nhưng nếu không nói chuyện trực tiếp với mọi người, tôi cảm thấy như đó không phải là nơi của tôi để gán ảnh hưởng đáng kể cho linh cảm này. Được nói chuyện với nhiều nhà khoa học tuyệt vời, khiêm tốn và cởi mở tại các phòng thí nghiệm hàng đầu của Trung Quốc đã kết tinh rất nhiều niềm tin của tôi. Rất nhiều việc xây dựng LLM tốt nhất hiện nay đều phụ thuộc vào công việc tỉ mỉ trên toàn bộ hệ thống, từ dữ liệu đến chi tiết kiến trúc và triển khai thuật toán RL. Tất cả các điểm của mô hình có thể mang lại một số cải tiến và việc kết hợp chúng lại với nhau là một quá trình phức tạp trong đó công việc của một số cá nhân xuất sắc cần được gác lại để ủng hộ mô hình tổng thể tối đa hóa tối ưu hóa đa mục tiêu. Trong khi các nhà nghiên cứu Mỹ rõ ràng cũng rất xuất sắc trong việc giải quyết các thành phần riêng lẻ, thì ở Hoa Kỳ lại có văn hóa lên tiếng cho chính bạn. Với tư cách là một nhà khoa học, bạn sẽ thành công hơn khi lên tiếng cho công việc của mình và văn hóa hiện đại đang thúc đẩy con đường mới để trở nên nổi tiếng với “các nhà khoa học AI hàng đầu”. Điều này dẫn đến xung đột trực tiếp. Người ta đồn rằng tổ chức Llama đã sụp đổ dưới sức nặng chính trị của những lợi ích này gắn liền với một tổ chức có thứ bậc. Tôi đã nghe các phòng thí nghiệm khác nói rằng có thể cần phải trả tiền cho một nhà nghiên cứu hàng đầu để khiến họ ngừng phàn nàn về việc ý tưởng của họ không được đưa vào mô hình cuối cùng. Cho dù điều đó có chính xác hay không thì ý tưởng này rất rõ ràng. Cái tôi và mong muốn thăng tiến nghề nghiệp cản trở việc tạo ra những mô hình tốt nhất. Một sự thay đổi nhỏ, mang tính định hướng trong loại hình văn hóa này giữa Hoa Kỳ và Trung Quốc có thể có tác động có ý nghĩa đến kết quả đầu ra cuối cùng. Một số điều này có liên quan đến việc ai đang xây dựng các mô hình ở Trung Quốc. Có một thực tế ngay lập tức ở tất cả các phòng thí nghiệm là phần lớn những người đóng góp cốt lõi là những sinh viên năng động. Các phòng thí nghiệm còn khá mới và nó làm tôi nhớ đến cơ sở của chúng tôi tại Ai2, nơi sinh viên được coi là đồng nghiệp và được tích hợp trực tiếp vào nhóm LLM. Điều này cực kỳ khác biệt so với các phòng thí nghiệm hàng đầu ở Hoa Kỳ, nơi những phòng thí nghiệm như OpenAI, Anthropic, Cursor, v.v. đơn giản là không cung cấp chương trình thực tập. Các công ty khác như Google trên danh nghĩa đều có các chương trình thực tập liên quan đến Gemini, nhưng có rất nhiều lo ngại về việc liệu chương trình thực tập của bạn có bị bưng bít và xa rời thực tế hay không. Để tóm tắt một sự thay đổi nhỏ trong văn hóa có thể cải thiện khả năng xây dựng mô hình như thế nào: Sẵn sàng thực hiện công việc không hào nhoáng hơn để cải thiện mô hình cuối cùng, Những người mới xây dựng AI có thể thoát khỏi các giai đoạn trước của chu kỳ cường điệu AI, cho phép họ thích ứng với các kỹ thuật hiện đại mới nhanh hơn (trên thực tế, một trong những nhà khoa học Trung Quốc mà tôi đã nói chuyện đã thực sự tích cực gắn bó với thế mạnh này), Ít cái tôi hơn cho phép các sơ đồ tổ chức mở rộng quy mô một chút, vì hệ thống có ít trò chơi hơn và Tài năng dồi dào rất phù hợp để giải quyết vấn đề bằng bằng chứng về khái niệm ở nơi khác, v.v. Xu hướng thiên về các kỹ năng bổ sung cho việc xây dựng các mô hình ngôn ngữ ngày nay trái ngược với khuôn mẫu đã biết rằng các nhà nghiên cứu Trung Quốc có xu hướng tạo ra những nghiên cứu theo phong cách học thuật 0-1, ít sáng tạo, mang tính lĩnh vực hơn. Trong số những chuyến thăm phòng thí nghiệm mang tính học thuật hơn trong chuyến đi của chúng tôi, nhiều nhà lãnh đạo nói về việc nuôi dưỡng nền văn hóa nghiên cứu đầy tham vọng hơn này. Đồng thời, một số nhà lãnh đạo kỹ thuật mà chúng tôi đã nói chuyện đã tỏ ra nghi ngờ về việc liệu việc điều chỉnh lại cách tiếp cận khoa học như vậy có khả thi trong thời gian tới hay không, bởi vì cần phải thiết kế lại hệ thống giáo dục và khuyến khích vốn quá lớn để có thể xảy ra trong trạng thái cân bằng kinh tế hiện tại. Nền văn hóa này dường như đang đào tạo ra những sinh viên và kỹ sư xuất sắc trong trò chơi xây dựng LLM. Tất nhiên, họ cũng có số lượng vô cùng dồi dào. Những sinh viên này kể cho tôi về việc chảy máu chất xám tương tự đang xảy ra ở Trung Quốc cũng như ở Mĩ, nơi nhiều người trước đây đã cân nhắc con đường hàn lâm bây giờ có ý định ở lại trong công nghiệp. Câu nói hài hước nhất là của một nhà nghiên cứu muốn trở thành giáo sư để gần gũi hơn với hệ thống giáo dục, nhưng lại nhận xét rằng giáo dục được giải quyết bằng LLM - “tại sao một sinh viên lại nói chuyện với tôi!” Các sinh viên có lợi khi đến học LLM với cái nhìn mới mẻ. Trong vài năm qua, chúng tôi đã thấy mô hình chính của LLM chuyển đổi từ việc mở rộng quy mô của MoE sang mở rộng quy mô RL và cho phép các đại lý. Thực hiện tốt bất kỳ điều nào trong số này bao gồm việc tiếp thu một lượng lớn bối cảnh một cách nhanh chóng, cả từ tài liệu rộng hơn và nền tảng kỹ thuật tại công ty của bạn. Học sinh đã quen với việc này và hào hứng từ bỏ mọi giả định về những gì nên làm. Họ lao vào anh ấy