Các mô hình tác nhân video (Video Agent) là bước phát triển…

Chúng tôi sẽ công bố diễn giả của AIEWF trong tuần này! Hãy tham gia Khảo sát Kỹ thuật AI! Khách mời hôm nay, Ethan, lần đầu tiên tham gia cùng chúng tôi tại LS Paper Club với tư cách là trưởng nhóm NVIDIA Cosmos World Model, nhưng sau đó đã gia nhập xAI và xây dựng Grok Imagine trong 3 tháng: Ông trở lại Latent Space với một số quan điểm cực kỳ táo bạo: rằng các Mô hình Video (Video Models) chủ yếu có được trí thông minh từ các Mô hình Ngôn ngữ Lớn (LLM), chứ không phải từ việc huấn luyện trên dữ liệu video, và rằng biên giới tiếp theo cho các mô hình thế giới tương tác thực sự, thời gian thực, tầm nhìn dài hạn là làm việc trên các LLM (có lẽ cả các Mô hình Tương tác (Interaction Models) nữa…). Nói cách khác: Trong tương lai gần, Sora tiếp theo sẽ không...

Chúng tôi sẽ công bố diễn giả AIEWF trong tuần này! Hãy tham gia Khảo sát Kỹ thuật AI! Khách mời hôm nay, Ethan, lần đầu tiên tham gia cùng chúng tôi tại LS Paper Club với vai trò trưởng nhóm NVIDIA Cosmos World Model, nhưng sau đó đã gia nhập xAI và xây dựng Grok Imagine trong 3 tháng: Anh ấy trở lại Latent Space với một số quan điểm cực kỳ mới mẻ: các Mô hình Video chủ yếu có được trí thông minh từ LLM (mô hình ngôn ngữ lớn), chứ không phải từ việc huấn luyện trên dữ liệu video, và ranh giới tiếp theo cho các mô hình thế giới tương tác thực sự, thời gian thực, tầm nhìn dài hạn là làm việc trên LLM (có lẽ cả Mô hình Tương tác nữa…). Nói cách khác: Trong tương lai gần, Sora tiếp theo sẽ không phải là một mô hình video tốt hơn, mà là một tác nhân video. Truyền thông tạo sinh có thể sẽ theo sát sự phát triển của lập trình AI, vốn đã chuyển từ tập trung vào hiệu suất và chi phí đầu ra một lần, sang các mô hình lập luận và lập kế hoạch đa lượt cho các tác nhân và hệ thống có thể lập kế hoạch, chỉnh sửa, kiểm tra, gỡ lỗi và gửi PR (yêu cầu kéo). Đến một thời điểm nhất định, các mô hình lập trình trở nên tốt đến mức bước tiếp theo đáng kể duy nhất để cải thiện hiệu suất là xử lý việc điều phối các mô hình này. Hiện tại, khi hiệu suất của các mô hình video tăng lên đáng kể về độ chân thực, tính nhất quán và tuân thủ lời nhắc, đồng thời trở nên hiệu quả hơn về chi phí, sự phát triển tiếp theo của tạo video cũng có thể là các hệ thống có thể lập kế hoạch, tạo, chỉnh sửa, phê bình và lặp lại trong toàn bộ một tác vụ sáng tạo. Trong tập này, Ethan cùng swyx và Vibhu phân tích những gì thực sự cần để xây dựng các hệ thống hình ảnh và video tiên tiến: dữ liệu, VAE (bộ mã hóa tự động biến phân), bộ biến đổi khuếch tán, căn chỉnh âm thanh-video, tăng tốc suy luận và chi phí ẩn của việc lưu trữ và di chuyển các bộ dữ liệu video khổng lồ. Từ việc xây dựng mô hình thế giới Cosmos của NVIDIA đến việc gia nhập xAI khi Grok Imagine đang được xây dựng từ con số không, Ethan He đã ở trung tâm của một số công việc quan trọng nhất trong tạo video, mô hình đa phương thức và mô hình thế giới thời gian thực. Chúng tôi đi sâu vào Grok Imagine, cách một nhóm nhỏ xAI đã xuất xưởng mô hình video đa phương thức đầu tiên của họ trong ba tháng, tại sao tốc độ lặp lại quan trọng hơn hầu hết mọi thứ trong phát triển mô hình, và tại sao nhiều lợi ích lớn nhất đến từ việc sửa các lỗi nhỏ trong dữ liệu và quy trình huấn luyện. Flipbook: Tương lai của Videomaxxing Các tác nhân video gần như chắc chắn sẽ là xu hướng trong năm tới. Chúng tôi kết thúc bằng một cái nhìn về những gì vượt ra ngoài các tác nhân video: Flipbook đã gây ra một sự chấn động nhỏ trong năm nay khi được phát hành, nhưng hầu hết coi đó là một bản demo thú vị. Ethan coi đó rất nghiêm túc — với tốc độ và chi phí suy luận giảm xuống mỗi năm, tương lai của giao diện người dùng JIT (Just-In-Time) video tùy chỉnh gần hơn bạn nghĩ. Chúng tôi đã nói về lý do tại sao các mô hình tạo video có thể trở thành giao diện người dùng của AI, cách giao diện người dùng tạo sinh có thể thay thế HTML/CSS truyền thống, tại sao các mô hình thế giới cần phải là thời gian thực, tương tác và tầm nhìn dài hạn, và tại sao tương lai của tạo video có thể phụ thuộc nhiều hơn vào các mô hình ngôn ngữ và tác nhân hơn là chỉ khuếch tán. Chúng tôi thảo luận: Tại sao lặp lại nhanh quan trọng hơn các cuộc họp Tại sao các lỗi huấn luyện nhỏ có thể mang lại những cải thiện lớn về chất lượng mô hình Tại sao các mô hình lập trình có thể khiến tính toán trở thành nút thắt cổ chai một lần nữa Cách các mô hình hình ảnh và video được huấn luyện bằng chú thích tổng hợp Vai trò của VAE và không gian tiềm ẩn trong các mô hình video tiên tiến Tại sao các mô hình hình ảnh là nền tảng cho các mô hình video Sự đánh đổi giữa nén thời gian và tương tác thời gian thực Flipbook, Neural OS và tương lai của giao diện người dùng tạo sinh Tại sao các giao diện tương lai có thể chuyển từ ý định người dùng sang pixel Chi phí ẩn của việc huấn luyện các mô hình video: lưu trữ, xuất dữ liệu và giờ GPU Cách chưng cất bước và các mô hình nhất quán (như OpenAI sCM) giúp suy luận video nhanh hơn nhiều lần. Grok Imagine 0.9 và tạo video-âm thanh quy mô lớn. Tại sao căn chỉnh âm thanh-video khó hơn căn chỉnh văn bản-video. Định nghĩa của Ethan về các mô hình thế giới. Tham chiếu thành video, mở rộng video và tạo video ngữ cảnh dài. Tại sao truyền thông nghiên cứu của xAI đánh giá thấp Grok Imagine. Văn hóa xAI đã định hình tốc độ phát triển như thế nào. Thủy vân AI, SynthID và phát hiện phương tiện được tạo. Tại sao việc viết lại lời nhắc lại quan trọng đối với các mô hình video. Grok Imagine Agent và sự trỗi dậy của các tác nhân video. Tại sao các mô hình ngôn ngữ có thể mở khóa khả năng tạo video tốt hơn. Người máy, AI vật lý và các mô hình thế giới thể hiện. Tại sao Ethan rời xAI và chuyển trọng tâm sang LLM. Ngữ cảnh tự quản lý, bộ nhớ và ranh giới tiếp theo cho các mô hình ngôn ngữ. Ethan He LinkedIn: https://www.linkedin.com/in/ethanhe42 X: https://x.com/EthanHe_42 Dấu thời gian 00:00:00 Giới thiệu 00:01:25 Từ NVIDIA Cosmos đến xAI 00:03:24 Xây dựng Grok Imagine từ số 0 đến số 1 00:10:07 Cách các mô hình hình ảnh và video được đào tạo 00:18:53 Nén video, VAE và các đánh đổi thời gian thực 00:22:10 Giao diện người dùng tạo sinh, Flipbook và Hệ điều hành thần kinh 00:32:10 Chi phí đào tạo các mô hình video lớn 00:37:04 Chưng cất, GAN và suy luận video nhanh 00:41:21 Tạo âm thanh-video và Grok Imagine 0.9 00:48:34 Điều gì tạo nên một mô hình thế giới? 00:55:51 Video tham chiếu, ngữ cảnh dài và bộ nhớ video 01:00:11 Văn hóa xAI, nghiên cứu và xây dựng từ nguyên tắc đầu tiên 01:09:45 An toàn AI, thủy vân và viết lại lời nhắc 01:13:10 Các tác nhân video và tạo tác phẩm được hỗ trợ bởi AI 01:27:32 Tại sao các mô hình ngôn ngữ mở khóa video tốt hơn 01:31:15 Người máy, AI vật lý và các mô hình thế giới thể hiện 01:32:38 Tại sao Ethan rời xAI 01:34:16 Ngữ cảnh tự quản lý và tương lai của LLM 01:38:43 Con đường sự nghiệp của Ethan và những suy nghĩ cuối cùng Bản ghi Giới thiệu: Ethan He, Latent Space và con đường đến xAI Swyx [00:00:00]: Chúng tôi đang ở đây trong studio với Ethan He, gần đây nhất là từ xAI. Chào mừng. Ethan [00:00:10]: Cảm ơn. Rất vui được ở đây. Swyx [00:00:11]: Chúng tôi cũng ở đây với Vibhu. Bạn lần đầu tiên đến với chúng tôi hoặc tham gia thế giới không gian tiềm ẩn vì bạn đang làm việc trên Kosmos tại NVIDIA, và bạn đã có một bài báo. Chúng tôi rất thích nó. Bạn cũng đã trình bày nó, vì vậy cảm ơn bạn đã làm điều đó. Ethan [00:00:23]: Thực ra, tôi cũng đã trình bày MoEs hai lần tại không gian tiềm ẩn. Swyx [00:00:29]: Làm thế nào bạn thực sự biết về chúng tôi? Chúng tôi đã liên hệ với bạn? Đó có phải là cách nó hoạt động không? Ethan [00:00:33]:

Các mô hình tác nhân video (Video Agent) là bước phát triển tiếp theo — Ethan He, xAI Grok Imagine