
[AINews] Các nhà sáng lập và Kỹ sư Triển khai Tiên phong
Hầu hết mọi người vẫn đang tiếp nhận thông tin lớn từ Anthropic ngày hôm qua. Chúng tôi nhân cơ hội này để tìm kiếm các Kỹ sư Triển khai Tiên phong (FDE) hàng đầu thế giới về AI cho chương trình Kỹ sư Triển khai Tiên phong mới của AIE, tương tự như các động thái từ OpenAI DeployCo và Anthropic DeployCo: cũng như chương trình Sáng lập viên mới của AIE, nơi chúng tôi tổ chức phiên bản Startup Battlefield của mình, một cuộc thi thuyết trình cạnh tranh được dẫn dắt bởi Garry Tan của YCombinator và cuộc thi Hyperagent trị giá 10 triệu USD của Howie Lu. Đăng ký (và đặt phòng khách sạn!) để biết chi tiết ngay hôm nay nếu quý vị quan tâm. Tin tức AI cho 5
Hầu hết mọi người vẫn đang tiếp nhận thông tin lớn từ Anthropic ngày hôm qua.
Chúng tôi đang tận dụng cơ hội này để mời các Kỹ sư Triển khai Tiên tiến (FDE) hàng đầu thế giới về AI tham gia chương trình Kỹ sư Triển khai Mới của AIE, tương tự như các chương trình của OpenAI DeployCo và Anthropic DeployCo:
cũng như chương trình Sáng lập viên mới của AIE, nơi chúng tôi tổ chức phiên bản Startup Battlefield của riêng mình, một cuộc thi thuyết trình cạnh tranh được dẫn dắt bởi Garry Tan của YCombinator và cuộc thi Hyperagent trị giá 10 triệu USD của Howie Lu. Hãy đăng ký (và đặt phòng khách sạn!) để biết chi tiết ngay hôm nay nếu bạn quan tâm.
Tin tức AI ngày 28/5/2026-29/5/2026. Chúng tôi đã kiểm tra 12 subreddit, 544 tài khoản Twitter và không có thêm Discord nào. Trang web của AINews cho phép bạn tìm kiếm tất cả các số báo trước. Xin nhắc lại, AINews hiện là một phần của Latent Space. Bạn có thể chọn nhận/không nhận email thường xuyên!
Tổng hợp tin tức AI trên Twitter
Claude Opus 4.8 ra mắt, ma sát điểm chuẩn và tính tiện dụng của API
Opus 4.8 ra mắt trong bối cảnh đánh giá ồn ào, hỗn tạp: nhiều thử nghiệm độc lập cho thấy "cải thiện nhưng không vượt trội". @arena đã thực hiện hơn 200 bài kiểm tra giao diện/mã so sánh Opus 4.8 với các phiên bản Opus trước, Gemini và GLM; @theo báo cáo CursorBench cho thấy nó hiệu quả hơn nhưng hơi kém hơn 4.7 trong phạm vi sai số; @jerryjliu0 và @llama_index tìm thấy những cải thiện nhỏ về bảng/bố cục nhưng lại suy giảm về độ chính xác nội dung/biểu đồ trong phân tích tài liệu; @scaling01 cho biết không có tiến bộ nào trên ALE-Bench và riêng biệt chỉ ra các chế độ lỗi thú vị trên LisanBench. Về mặt tích cực, @jeremyphoward nhận thấy 4.8 ít "quá chủ động" và hợp tác hơn 4.7/GPT-5.5 trong lập trình, trong khi @leo_linsky gọi đó là một cải tiến sản phẩm hữu hình so với các bản phát hành trước của Anthropic.
Anthropic cũng đã triển khai các thay đổi cấp nền tảng hữu ích: @ClaudeDevs thông báo hướng dẫn hệ thống giữa cuộc trò chuyện mà không làm hỏng bộ nhớ đệm lời nhắc, cùng với các cập nhật vai trò hệ thống có thẩm quyền giữa cuộc trò chuyện, điều này quan trọng đối với các phiên tác nhân dài hạn và kiểm soát chi phí. Tuy nhiên, giá cả vẫn là một phàn nàn lớn: @jeremyphoward lập luận rằng Anthropic đã làm rất ít để cải thiện khả năng chi trả của API, ưu tiên GPT-5.5 một phần vì kinh tế đăng ký/API dễ biện minh hơn. Nhận định chung: 4.8 có vẻ là một bản phát hành cải thiện chất lượng cuộc sống đáng kể cho việc sử dụng thực tế, không phải là một sự thiết lập lại điểm chuẩn hoàn toàn.
Bộ điều khiển tác nhân, lỗi RL đa lượt và cơ sở hạ tầng xung quanh tính tự chủ
Một chế độ lỗi RL tinh tế nhưng quan trọng đã được chỉ ra: @ClementDelangue đã nhấn mạnh một phân tích chuyên sâu của Hugging Face về lý do tại sao nhiều vòng lặp huấn luyện RL đa lượt, sử dụng công cụ lại bị lỗi một cách âm thầm. Lỗi cốt lõi: giải mã đầu ra mô hình, phân tích các lệnh gọi công cụ, sau đó mã hóa lại cuộc trò chuyện đã cập nhật có thể thay đổi mã hóa, do đó các gradient được áp dụng cho các chuỗi mà mô hình chưa bao giờ thực sự lấy mẫu. Giải pháp được đề xuất là một quy tắc "Token-In, Token-Out" nghiêm ngặt: không bao giờ mã hóa lại các token đã lấy mẫu; giữ một bộ đệm token duy nhất qua các lượt. @johnschulman2 đã củng cố quan điểm rộng hơn rằng các trình kết xuất là cơ sở hạ tầng nền tảng giữa các tin nhắn và token, với các chế độ lỗi bao gồm sự không khớp giữa huấn luyện/kiểm tra, hiệu quả bộ nhớ đệm và rủi ro tấn công lời nhắc.
Thiết kế khai thác đang trở thành một lĩnh vực tối ưu hóa riêng: @omarsar0 đã công bố nghiên cứu về Hiệu quả tính toán phản hồi (EFC), khẳng định rằng số lượng token/công cụ thô giải thích kém về sự thành công của tác nhân, trong khi EFC đạt R² lên tới 0,99, ngụ ý rằng chất lượng khai thác quan trọng hơn tổng hoạt động. Điều này phù hợp với các nỗ lực điều chỉnh sản phẩm như @LangChain, nơi Deep Agents v0.6 đưa hồ sơ khai thác lên hàng đầu để đạt được hiệu suất mạnh mẽ từ Qwen/Kimi/DeepSeek với chi phí thấp hơn 20 lần so với các API tiên tiến, và @hwchase17 đã nêu rõ "các mô hình khác nhau cần các lời nhắc/công cụ khác nhau." @vllm_project đã phát hành các API đồng bộ hóa trọng số gốc và cải thiện tính năng tạm dừng/tiếp tục cho RL không đồng bộ, và sau đó bổ sung fastokens, một bộ mã hóa BPE (Byte Pair Encoding) bằng Rust để giảm tắc nghẽn mã hóa token CPU trong các tác vụ dài hạn/tác nhân.
Cuộc tranh luận đang chuyển từ "đơn tác nhân so với đa tác nhân" sang việc trừu tượng hóa mang lại lợi ích ở đâu: @OfirPress lập luận rằng các hệ thống đa tác nhân hiện tại chủ yếu là tăng tốc, không phải mở khóa khả năng; @scaling01 có quan điểm ngược lại, mong đợi việc đào tạo theo kiểu bầy đàn sẽ mang lại khả năng lập kế hoạch tốt hơn và hành vi giống siêu trí tuệ. Dù bằng cách nào, xu hướng thực tế là rõ ràng: nhiều nhóm đang xây dựng xung quanh khả năng quan sát tác nhân, dấu vết và các vòng lặp cải tiến liên tục, ví dụ: @Vtrivedy10 về việc khai thác dấu vết sản xuất cho SFT (Supervised Fine-Tuning)/chưng cất và học liên tục dài hạn.
Các mô hình mở, AI cục bộ và chuỗi công cụ OSS (Open-Source Software) đang được thắt chặt
Động lực ưu tiên cục bộ và trọng số mở tiếp tục tăng: @LangChain cho biết 1 trong 3 nhóm AI đã chạy một mô hình trọng số mở vào tháng 4 năm 2026, tăng từ 1 trong 5 chín tháng trước đó; @EpochAIResearch ước tính các mô hình trọng số mở hiện đang tụt hậu so với các mô hình độc quyền tiên tiến khoảng bốn tháng. Về phía chuỗi công cụ, @ggerganov đã ra mắt llama.app, cung cấp cho llama.cpp một trang web chính thức, một trình cài đặt thống nhất và một điểm truy cập llama duy nhất nhằm mục đích triển khai cục bộ dễ dàng hơn và tích hợp tác nhân của bên thứ ba. @ollama đã công bố OpenJarvis là một AI cá nhân ưu tiên cục bộ thông qua Ollama, được liên kết rõ ràng với khung "Intelligence Per Watt" của Stanford/Hazy.
Cơ sở hạ tầng mở đang ngày càng có hình dạng doanh nghiệp: @ClementDelangue lưu ý rằng khoảng 50% các mô hình và tập dữ liệu trên Hugging Face hiện là riêng tư, tăng lên cùng với việc cung cấp lưu trữ/gói của HF; đây là một sự điều chỉnh quan trọng đối với ý tưởng rằng HF chỉ là cơ sở hạ tầng OSS công cộng. @abidlabs đã trình bày Hugging Face Jobs thay thế các trình chạy GitHub cho CI (Continuous Integration) GPU CPU/serverless. @DSPyOSS, @dbreunig và những người khác đã phát hành một tài liệu/trang chủ DSPy được thiết kế lại trước phiên bản 4.0 sắp tới, tập trung vào việc giới thiệu các hệ thống AI có thể lập trình thay vì chỉ đơn thuần là nhắc nhở.
Cấp phép và tính cho phép đang trở thành đòn bẩy chiến lược: @kimmonismus nhấn mạnh NVIDIA đang chuyển bốn dòng mô hình mở của mình sang Linux Foundation OpenMDW-1.1, giảm sự phân mảnh pháp lý trên các trọng số/mã/tài liệu/dữ liệu. Các bản phát hành dữ liệu cho phép mới cũng quan trọng: @keshigeyan đã giới thiệu GPIC, một cặp 100 triệu cặp cho phép im


Nguồn tin: Latent Space. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.