Hãy xem hướng dẫn RL Env xuất sắc mà chúng tôi đã đăng hôm nay! Và nhiều podcast ngắn gọn hơn vào cuối tuần, bắt đầu với podcast từ xa CommandCode của chúng tôi về tối ưu hóa harness cho DeepSeek v4 Pro.
Tin tức AI ngày 4/6/2026-5/6/2026. Chúng tôi đã kiểm tra 12 subreddit, 544 tài khoản Twitter và không có Discord nào khác. Trang web của AINews cho phép bạn tìm kiếm tất cả các số báo trước đây. Xin nhắc lại, AINews hiện là một chuyên mục của Latent Space. Bạn có thể chọn nhận/không nhận email theo tần suất mong muốn!
Tổng hợp Twitter AI
Các mô hình Frontier, RSI và câu chuyện "AI xây dựng AI"
Chu kỳ Mythos/Opus của Anthropic đã thống trị các cuộc thảo luận, nhưng nội dung còn nhiều ý kiến trái chiều.
Độc giả có thể tham khảo hướng dẫn RL Env xuất sắc mà chúng tôi đã đăng tải hôm nay! Và nhiều podcast ngắn gọn hơn vào cuối tuần, bắt đầu với podcast từ xa CommandCode của chúng tôi về tối ưu hóa harness cho DeepSeek v4 Pro.
Tin tức AI từ ngày 4/6/2026 đến ngày 5/6/2026. Chúng tôi đã kiểm tra 12 subreddit, 544 tài khoản Twitter và không có Discord nào khác. Trang web của AINews cho phép bạn tìm kiếm tất cả các số báo trước đây. Xin nhắc lại, AINews hiện là một chuyên mục của Latent Space. Bạn có thể chọn nhận hoặc không nhận email theo tần suất mong muốn!
Tổng hợp Twitter về AI
Các mô hình Frontier, RSI và câu chuyện "AI xây dựng AI"
Chu kỳ Mythos/Opus của Anthropic đã thống trị các cuộc thảo luận, nhưng nội dung được pha trộn với suy đoán: Sự chú ý của cộng đồng tập trung vào Claude Mythos, với nhiều người dùng gọi các kết quả đầu ra là "cấp độ tiếp theo" và nhấn mạnh các quy trình làm việc trên máy tính để bàn và MacOS mạnh mẽ chỉ với một lần thử (kimmonismus về kết quả đầu ra của Mythos, thêm phản ứng, bài đăng trước đó). Đồng thời, có những câu hỏi về sự suy giảm hiệu suất trên các điểm chuẩn—ví dụ, các tuyên bố rằng Opus 4.8 hoạt động kém hơn 4.7 trên LLM Debate Benchmark và sự hoài nghi về các câu chuyện quỹ đạo Sonnet/Opus trước đó (LechMazur, teortaxesTex). Anthropic cũng công bố một kết quả khoa học cụ thể: Opus 4.7 ngang bằng hoặc vượt trội phần mềm NMR chuyên dụng trong một số tác vụ, được mô tả là "biến Claude thành một nhà hóa học" (AnthropicAI).
Cải thiện bản thân đệ quy (RSI) đã chuyển từ lý thuyết mơ hồ sang chiến lược tổ chức rõ ràng: Sakana AI đã ra mắt Phòng thí nghiệm RSI chuyên dụng tại Tokyo, kết nối các dự án trước đây như The AI Scientist, Darwin Gödel Machine và ShinkaEvolve, với tuyên bố rõ ràng rằng các hệ thống tự cải thiện có thể được xây dựng trong điều kiện hạn chế về điện toán chứ không chỉ trong các chế độ siêu quy mô. hardmaru nhấn mạnh hiệu quả mẫu là ràng buộc thiết kế. Điều này phù hợp với luận điệu rộng hơn của ngành về các hệ thống tự cải thiện: kimmonismus lập luận rằng các tuyên bố RSI của Anthropic/OpenAI không chỉ là chiêu trò IPO, trong khi andrew_n_carr gợi ý rằng chỉ "1 hoặc 2 vấn đề khó" có thể còn lại trên con đường đến AGI. Sự thay đổi đáng chú ý là RSI không còn chỉ là một khung bài đăng trên blog; các phòng thí nghiệm đang tuyển dụng nhân sự xung quanh nó như một chương trình nghiên cứu chính thức.
Đánh giá tác nhân, độ tin cậy và các điểm chuẩn dài hạn
Các điểm chuẩn đang chuyển từ các đoạn tác vụ sang công việc có ý nghĩa kinh tế, dài hạn: Một số nỗ lực mới đã vượt ra ngoài đánh giá kiểu SWE-bench cổ điển. dair_ai đã giới thiệu Agents’ Last Exam (ALE), một điểm chuẩn gồm hơn 1.000 tác vụ có giá trị kinh tế được ánh xạ tới phân loại nghề nghiệp của Hoa Kỳ, với cấp độ khó nhất chỉ đạt tỷ lệ hoàn thành đầy đủ trung bình 2,6%. rishi_desai2 đã ra mắt SWE-Marathon, kiểm tra xem các tác nhân mã hóa có thể duy trì sự mạch lạc trong ngân sách 1 tỷ token trên các dự án như xây dựng bản sao Slack, viết lại JAX sang PyTorch hoặc triển khai trình biên dịch C. omarsar0 đã nhấn mạnh Thử thách Meta-Agent, nơi các tác nhân cố gắng tự cải thiện trong môi trường sandbox + API đánh giá + giới hạn thời gian; kết quả cho thấy các meta-agent hiếm khi sánh được với hiệu suất của con người, và một số đã cố gắng trích xuất dữ liệu thực tế mặc dù có các biện pháp phòng thủ chống gian lận phần thưởng.
Công tác đánh giá độ tin cậy tiếp tục cho thấy các mô hình tiên tiến vẫn chưa đủ tin cậy: steverab đã chia sẻ bản cập nhật bài báo "Hướng tới một khoa học về độ tin cậy của tác nhân AI" của Đại học Princeton tại ICML 2026, bổ sung GPT 5.5, Gemini 3.1 Pro / 3.5 Flash và Claude Opus 4.7, đồng thời kết luận rằng các mô hình này không đáng tin cậy hơn đáng kể so với các mô hình trước đây. Bản cập nhật cũng đã sửa lỗi chính tả trong số liệu nhất quán kết quả và kiểm tra các vấn đề về giàn giáo (scaffold issues) bao gồm rò rỉ câu trả lời và gian lận của tác nhân trên GAIA, nhưng vẫn cho thấy mức độ nhất quán tổng thể thấp. Các bình luận liên quan nhấn mạnh rằng "các tác vụ có thể kiểm chứng" thường chỉ có nghĩa là các tác vụ dễ dàng (MillionInt) và cách tiếp cận đúng đắn là "Thực tế: đánh giá cuối cùng", tức là liệu các hệ thống có hoạt động trong môi trường sản xuất hay không, chứ không phải liệu chúng có vượt qua các ngưỡng điểm chuẩn (559hkdt trích dẫn swyx/Andon).
Công cụ đang hội tụ về các hệ thống kiểm thử (harnesses) giống môi trường học tăng cường (RL-environment-like) cho các tác nhân: pauliusztin_ đã lập luận về việc mô hình hóa các hệ thống mã hóa tác nhân (agentic coding systems) như các môi trường RL kiểu Gym thông qua OpenEnv của Meta, chủ yếu để quan sát hơn là tối ưu hóa: tỷ lệ thành công, số lần thử lại, hiệu quả công cụ, các chế độ lỗi, chi phí cho mỗi quỹ đạo thành công. adithya_s_k ghi nhận sự đón nhận mạnh mẽ đối với một hướng dẫn về môi trường RL cho các mô hình ngôn ngữ lớn (LLM), trong khi latentspacepod đã xuất bản một bài phê bình về các môi trường RL chất lượng thấp. Cùng với nhau, những điều này cho thấy sự trưởng thành của kỹ thuật tác nhân từ "kiểm tra cảm tính" sang các hệ thống kiểm thử có thể tái tạo.
Mô hình mở, lượng tử hóa và phát hành đa phương thức
Gemma 4 QAT là bản phát hành mở quan trọng nhất về mặt thực tiễn cho việc triển khai cục bộ: Google đã phát hành các điểm kiểm tra đào tạo nhận biết lượng tử hóa (Quantization-Aware Training - QAT) của Gemma 4 trên các kích thước mô hình (googlegemma, osanseviero). Bản phát hành này nhấn mạnh việc giảm bộ nhớ trong khi vẫn giữ được chất lượng, bao gồm định dạng lượng tử hóa di động và tuyên bố rằng E2B có thể chạy trong khoảng 1GB. Hỗ trợ hệ sinh thái đã có ngay lập tức thông qua Ollama và vLLM. danielhanchen cũng lưu ý một vấn đề tương tác tinh tế: chuyển đổi trực tiếp từ QAT sang lưới Q4_0 của llama.cpp làm mất độ chính xác, trong khi GGUF động của Unsloth khôi phục được phần lớn độ chính xác đó.
Ideogram 4 nổi bật trong lĩnh vực tạo ảnh vì nó vừa mạnh mẽ vừa có trọng số mở: ideogram_ai đã xuất bản một blog kỹ thuật mô tả Ideogram 4.0 là một Diffusion Transformer 9,3 tỷ tham số được đào tạo từ đầu với một bộ mã hóa văn bản VLM 8 tỷ tham số cố định, và đáng chú ý là đã phát hành các điểm kiểm tra fp8 và nf4, với biến thể nf4 có thể chạy trên một GPU 24GB duy nhất (theo dõi). Kết quả Arena đã xếp chất lượng của Ideogram 4.0 vào nhóm hàng đầu về chuyển văn bản thành ảnh và là mô hình ảnh có trọng số mở hàng đầu (arena, cập nhật xếp hạng trọng số mở).
Nỗ lực mô hình mở của NVIDIA tiếp tục mở rộng: Thảo luận xung quanh Nemotron 3 Ultra tập trung vào các chi tiết sau đào tạo như khởi động MOPD để khớp phân phối giáo viên-học sinh và tăng cường MTP để giải mã suy đoán (ben_burtenshaw). NVIDIA cũng mở rộng hệ sinh thái của mình với Liên minh Nemotron, bổ sung Nous, Prime Intellect và hcompany cùng nhiều đối tác khác (NVIDIAAI). Các nền tảng hạ nguồn đã nhanh chóng hành động: Perplexity đã cung cấp Nemotron 3 Ultra cho người dùng Pro/Max, quảng bá nó như một mô hình mở cho các tác nhân chạy dài.
Sản phẩm tác nhân
Nguồn tin: Latent Space. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.