[AINews] Làm thế nào để có được việc làm tại một phòng thí…

Hôm nay là ngày trước thềm sự kiện Google I/O, nơi dự kiến sẽ giới thiệu các bản phát hành Gemini lớn tiếp theo. Có lẽ đây sẽ là một tuần yên tĩnh từ các đối thủ cạnh tranh, mặc dù Anthropic và OpenAI đều đạt được những thành công nhỏ trong ngày hôm nay. Cursor đã phát hành mô hình SpaceXAI đầu tiên của họ với một số chi tiết đáng chú ý về dữ liệu tổng hợp/phần thưởng và tiếp tục huấn luyện trước với Muon. Tuy nhiên, ứng cử viên cho câu chuyện tiêu đề có khả năng kéo dài nhất trong ngày hôm nay sẽ là những ghi chú của Vlad Feinberg (có thể hiểu là tập trung vào Google/TPU) về việc chuẩn bị công việc, đặc biệt là về Huấn luyện trước (Pretraining): Cụ thể, ông ấy đề cập đến cuốn sổ tay Scaling năm ngoái từ De

Hôm nay là một ngày trước sự kiện Google I/O, nơi dự kiến sẽ giới thiệu các bản phát hành Gemini lớn tiếp theo. Có lẽ đây sẽ là một tuần yên tĩnh từ các đối thủ cạnh tranh, mặc dù Anthropic và OpenAI đều có những thành công nhỏ trong ngày hôm nay. Cursor đã phát hành mô hình SpaceXAI đầu tiên của họ với một số chi tiết đáng chú ý về dữ liệu tổng hợp/khai thác phần thưởng và tiếp tục đào tạo trước với Muon. Tuy nhiên, tiêu đề có khả năng tồn tại lâu dài nhất trong ngày hôm nay sẽ là những ghi chú của Vlad Feinberg (có thể hiểu là tập trung vào Google/TPU) về việc chuẩn bị công việc, đặc biệt là về Pretraining (đào tạo trước): Cụ thể, ông đề cập đến cuốn sổ tay Scaling của DeepMind năm ngoái, và công việc kernel là một phần quan trọng: Nút thắt lớn nhất và vòng lặp bên trong nhất của tất cả các công việc LLM là công việc hiệu suất, biến những thay đổi trừu tượng, logic đối với LLM trở nên khả thi để chạy. Mọi dự án đều cần những người có thể điều chỉnh LLM ở cấp độ kernel. Đây là một kỹ năng bạn có thể học được và là con đường trực tiếp nhất để vào các phòng thí nghiệm. Có một đề cập bất ngờ về DSL (ngôn ngữ đặc tả miền) cho phát triển kernel, với một lịch sử ngắn gọn: Đối với một người ở cấp độ này của ngăn xếp, điều đáng ngạc nhiên là ông cũng đề cập đến Công việc của Agent (tác nhân) như tự nghiên cứu và AlphaEvolve. Ông kết thúc bằng một bài tập đơn giản đáng ngạc nhiên: Nhưng bài kiểm tra tuyển dụng thực sự nằm ở các đoạn cuối: Suy ra các định luật Chinchilla cho điều này; xem chúng khác nhau như thế nào đối với kiến trúc dày đặc so với kiến trúc MoE (Mixture of Experts). Tự viết mã giải pháp của bạn từ đầu bằng Jax nếu bạn thực sự muốn có trải nghiệm học tập. Tiếp theo, giả sử bạn đã sử dụng jax.lax.ragged_dot cho lớp MoE; hãy viết một kernel Pallas đánh bại ragged dot cho F > D bằng cách hợp nhất các phép chiếu lên/xuống. Tìm một thiết lập mà bạn nhận thấy sự tăng tốc đáng kể của quá trình chuyển tiếp và giải thích lý do tại sao nó lại xảy ra. Nếu bạn có thể dạy điều này cho phần còn lại của cộng đồng, chúng tôi rất muốn mời bạn làm diễn giả hội thảo. Tin tức AI ngày 16/5/2026-18/5/2026. Chúng tôi đã kiểm tra 12 subreddit, 544 tài khoản Twitter và không có thêm Discord nào. Trang web của AINews cho phép bạn tìm kiếm tất cả các số báo trước đây. Xin nhắc lại, AINews hiện là một phần của Latent Space. Bạn có thể chọn nhận/không nhận email theo tần suất! Tổng hợp Twitter về AI Các tác nhân mã hóa, hoạt động của tác nhân và sự chuyển đổi từ trò chuyện sang tự động hóa Cơ sở hạ tầng tác nhân đang hội tụ vào các vòng lặp quan sát + tự động hóa: Một số bài đăng chỉ ra một ngăn xếp trưởng thành cho các tác nhân sản xuất. LangSmith Engine được coi là vòng lặp CI/CD còn thiếu cho các tác nhân, tự động phát hiện lỗi từ các dấu vết sản xuất, phân cụm các vấn đề và soạn thảo các bản sửa lỗi/đánh giá, với LangChain cũng nhấn mạnh SmithDB là một lớp dữ liệu được xây dựng có mục đích cho các khối lượng công việc quan sát/đánh giá tác nhân với truy vấn độ trễ thấp trên các dấu vết lớn và yêu cầu tự lưu trữ/đa đám mây @krishdpi, @LangChain. Song song đó, Cognition đã ra mắt Devin Auto-Triage, định vị nó là một "người phản ứng đầu tiên" luôn hoạt động cho các lỗi, cảnh báo và sự cố với bộ nhớ dài hạn, cấu trúc quản lý/tác nhân phụ và tạo PR; những người dùng sớm như Modal mô tả nó hữu ích hơn các tự động hóa phân loại tự tạo thông thường @cognition, @walden_yan, @russelljkaplan. Mô hình chung ít là "trò chuyện với một tác nhân" hơn và là tự động hóa liên tục gắn liền với các dấu vết, bộ nhớ và đánh giá. Các mô hình vận hành cho tác nhân mã hóa đang ngày càng trở nên cụ thể hơn: Anthropic đã công bố các phương pháp hay nhất để chạy Claude Code trên các kho lưu trữ đơn lẻ (monorepos) hàng triệu dòng, các hệ thống cũ và các dịch vụ vi mô (microservices), đồng thời bổ sung chẩn đoán bộ nhớ đệm lời nhắc (prompt cache diagnostics) và đặt chế độ Nhanh (Fast mode) mặc định thành Opus 4.7 cho các quy trình làm việc mã hóa có độ trễ thấp hơn @ClaudeDevs, @ClaudeDevs, @ClaudeDevs. OpenAI đã mở rộng các quy trình làm việc của Codex với một plugin Zoom, thực thi từ xa trên thiết bị di động/máy tính để bàn và hỗ trợ "giữ cho máy Mac của bạn hoạt động" để các công việc chạy dài hơn tiếp tục từ ứng dụng điện thoại @coreyching, @OpenAIDevs. Microsoft đã đẩy mạnh điều khiển từ xa cho GitHub Copilot CLI và VS Code lên GA @code. Qua đó, định hướng sản phẩm rõ ràng: thực thi nền, giám sát từ xa và phân tán tác nhân, không chỉ là hoàn thành tương tác. Các chuyên gia đang hội tụ về cùng một mô hình tư duy: hạn chế, xác minh, phân tách: Cách François Chollet mô tả các tác nhân mã hóa là "những con sóc mù" cần những ràng buộc có thể kiểm chứng được đặt cẩn thận, phù hợp một cách ngắn gọn với sự thay đổi rộng lớn hơn hướng tới kỹ thuật lấy dây cương làm trung tâm @fchollet. Các lời khuyên liên quan bao gồm sử dụng nhiều câu lệnh khẳng định (asserts) trong mã Python/ML để nhanh chóng phát hiện lỗi @gabriberton, xây dựng cả đánh giá đầu cuối và đánh giá tăng dần cho các tác nhân chạy dài @palashshah, và cấu trúc các hệ thống đa tác nhân theo các cấp độ trưởng thành theo giai đoạn thay vì tối đa hóa số lượng tác nhân một cách vội vàng @shannholmberg. Sự đồng thuận thực tế: chất lượng tác nhân phụ thuộc nhiều hơn vào các bề mặt xác minh, phân tách và vòng lặp phản hồi hơn là chỉ dựa vào sự khéo léo của lời nhắc. Phát hành mô hình, thay đổi thứ hạng và các mô hình mã hóa tiên tiến Composer 2.5 của Cursor là mô hình nổi bật trong đợt này: Cursor đã công bố Composer 2.5 là mô hình mạnh nhất của họ cho đến nay, nhấn mạnh khả năng làm việc bền vững hơn trên các tác vụ chạy dài và tuân thủ hướng dẫn đáng tin cậy hơn, sau đó tiết lộ một động thái chiến lược sâu sắc hơn: đào tạo một mô hình lớn hơn nhiều từ đầu với "SpaceXAI", sử dụng tổng số điện toán gấp 10 lần và quyền truy cập vào hàng triệu H100 tương đương của Colossus 2 @cursor_ai, @cursor_ai. Các phản ứng của cộng đồng tập trung vào hiệu quả/hiệu suất chi phí và chất lượng mã hóa mạnh mẽ của nó, với người dùng gọi đây là một bước tiến lớn so với Composer 2 và ghi nhận hành vi cộng tác tốt hơn trong các tin nhắn/cập nhật, không chỉ là những cải thiện về điểm chuẩn thô @mntruell, @jonas_nelle, @kimmonismus. Dòng Qwen của Alibaba tiếp tục tăng hạng: Qwen3.7 Preview đã xuất hiện trên Arena với Qwen3.7 Max Preview ở vị trí thứ 13 tổng thể về văn bản, bao gồm vị trí thứ 7 về Toán, thứ 9 về Chuyên gia, thứ 9 về Phần mềm & CNTT, và thứ 10 về Mã hóa; Qwen3.7 Plus Preview đạt vị trí thứ 16 tổng thể về thị giác, đưa Alibaba trở thành phòng thí nghiệm thứ 6 về văn bản và thứ 5 về thị giác theo số liệu của Arena @arena, @Alibaba_Qwen. Điều đó củng cố xu hướng rộng lớn hơn của các phòng thí nghiệm Trung Quốc liên tục cải thiện trên cả các lĩnh vực chung và chuyên biệt thay vì chỉ các điểm chuẩn trò chuyện nổi bật. Các bản phát hành mô hình mở và đa phương thức tiếp tục dưới cấp độ siêu tiên tiến.

[AINews] Làm thế nào để có được việc làm tại một phòng thí nghiệm tiên phong (về đào tạo mô hình tiền huấn luyện)