[AINews] Reve 2 và Ideogram 4: Bố cục trong tạo ảnh

Bốn năm trước, chúng tôi lập luận rằng việc tạo bố cục hình ảnh (image composition) là một phần của AGI-Hard (khó đạt được với Trí tuệ nhân tạo tổng quát). Rào cản đó đã được vượt qua trong năm nay. Không thể là sự trùng hợp ngẫu nhiên khi cả Reve và Ideogram đều ra mắt trong cùng một ngày, cả hai đều nhấn mạnh mạnh mẽ vào những tiến bộ mà họ đã đạt được với việc gắn nhãn mạnh mẽ (strong labeling) và mã hóa cho bố cục: và đây là Ideogram 4.0, hiện là mô hình hình ảnh mở tốt nhất: Đây là những thành tựu vĩ đại, và tất cả đều là những thành tựu vĩ đại của các mô hình tại Hoa Kỳ, nhưng bảng xếp hạng Arena cho thấy GPT-Image-2 vẫn vượt trội hơn rất nhiều... Tin tức AI ngày 2/6/2026 - 3/6/2026. Chúng tôi đã kiểm tra 12 subreddit, 544 tài khoản Twitter và không có thêm Discord nào. Trang web của AINews cho phép bạn

Bốn năm trước, chúng tôi lập luận rằng việc tạo bố cục hình ảnh (image composition) là một phần của vấn đề AGI-Hard (khó giải quyết bằng Trí tuệ nhân tạo tổng quát). Rào cản đó đã được vượt qua trong năm nay. Không thể là sự trùng hợp ngẫu nhiên khi cả Reve và Ideogram đều ra mắt cùng ngày, cả hai đều nhấn mạnh mạnh mẽ cách họ đạt được tiến bộ với việc gắn nhãn mạnh mẽ và mã hóa cho bố cục: và đây là Ideogram 4.0, hiện là mô hình hình ảnh mở tốt nhất: Đây là những thành tựu lớn, và tất cả đều là những thành tựu lớn của các mô hình tại Mỹ, nhưng bảng xếp hạng Arena cho thấy GPT-Image-2 vẫn vượt trội hơn nhiều... Tin tức AI ngày 02/6/2026-03/6/2026. Chúng tôi đã kiểm tra 12 subreddit, 544 tài khoản Twitter và không có thêm Discord nào. Trang web của AINews cho phép bạn tìm kiếm tất cả các số báo trước. Xin nhắc lại, AINews hiện là một chuyên mục của Latent Space. Bạn có thể chọn nhận/không nhận email thường xuyên! Tổng hợp tin tức AI trên Twitter Báo cáo kỹ thuật MAI-Thinking-1 của Microsoft, Quy trình đào tạo và Đẩy mạnh Frontier-Tuning MAI-Thinking-1 là bản phát hành kỹ thuật chuyên sâu nhất trong ngày: Microsoft đã giới thiệu MAI-Thinking-1, một mô hình tổng quát/lý luận được đào tạo mà không cần chắt lọc từ bên thứ ba, đạt 97% trên AIME 2025, 53% trên SWE-Bench Pro và được người dùng đánh giá cao hơn Sonnet 4.6 trong các thử nghiệm mù. Báo cáo dài 109 trang đã được @eliebakouch, @nrehiew_ và @mustafasuleyman ca ngợi rộng rãi vì tính minh bạch bất thường. Chủ đề kỹ thuật chính: Microsoft dường như đã "leo dốc từ đầu", với @MinjiYoon90 mô tả rõ ràng nỗ lực này theo cách đó. Lý do các nhà nghiên cứu quan tâm đến báo cáo: Chi tiết được trích dẫn nhiều nhất không chỉ là chất lượng điểm chuẩn, mà còn là lượng thông tin về hệ thống/đào tạo được công bố. @eliebakouch nhấn mạnh không có dữ liệu tổng hợp và không có chắt lọc mô hình trước đó, nghĩa là các hành vi lý luận, sử dụng công cụ và tác nhân được học trong quá trình hậu đào tạo mà không cần "khởi động lạnh" tổng hợp. Chủ đề này cũng đề cập đến việc công bố công thức thang đo, số liệu MFU chính xác và cấu trúc tổn thất mục tiêu. Trong các phần tiếp theo, @eliebakouch lưu ý rằng hỗn hợp NLL riêng tư được phân bổ 50% mã, 17,5% STEM, 17,5% toán học, 10% kiến thức tổng quát, 5% đa ngôn ngữ, với chuẩn hóa dựa trên một mô hình nội bộ; anh ấy cũng chỉ ra các phép loại bỏ khoảng 100–200 TPP cho thiết lập MoE của họ tại đây. Các chi tiết triển khai đáng chú ý khác được tổng hợp trong cộng đồng: Microsoft đã sử dụng SGLang trong một số phần của quy trình, theo @eliebakouch, và dspy.GEPA để quản lý dữ liệu tiền đào tạo, theo @lateinteraction và @harold_matmul. Góc độ sản phẩm hóa của Microsoft vượt ra ngoài một mô hình: Cùng với báo cáo, Microsoft đã thúc đẩy một câu chuyện rộng lớn hơn về "làm chủ mô hình của bạn". @mustafasuleyman đã phác thảo Frontier Tuning, tập trung vào các môi trường học tăng cường để thích ứng theo quy trình làm việc cụ thể, tuyên bố rằng các mô hình MAI được điều chỉnh theo Excel nội bộ có thể đạt chất lượng cấp GPT-5.4 trong các tác vụ liên quan trong khi hiệu quả hơn tới 10 lần. Bản phát hành Build cũng bao gồm MAI-Image-2.5, mà Microsoft cho biết đứng thứ 3 về chuyển văn bản thành hình ảnh và thứ 2 về chuyển hình ảnh thành hình ảnh trên bảng xếp hạng arena, cùng với MAI-Code-1-Flash và việc triển khai vào các sản phẩm như OneDrive Photos. Về mặt tổng thể, đây là một trong những ví dụ rõ ràng nhất trong năm nay về một phòng thí nghiệm cố gắng công bố một báo cáo theo phong cách tiên phong đồng thời biến quy trình đó thành cơ sở hạ tầng tùy chỉnh cho doanh nghiệp. Các bản phát hành mô hình mở: Gemma 4 12B, Ideogram 4.0, Miso One và động lực phát triển cục bộ Gemma 4 12B là mô hình mở nổi bật nhất được ra mắt: Google đã phát hành Gemma 4 12B, một mô hình đa phương thức Apache 2.0 được thiết kế để chạy trên thiết bị với khoảng 16GB VRAM. Điểm mới về kiến trúc là thiết kế không bộ mã hóa: không có tháp thị giác hoặc âm thanh riêng biệt. Theo giải thích của Google, hình ảnh được xử lý thông qua một mô-đun nhúng nhẹ và âm thanh thô được chiếu trực tiếp vào không gian mã thông báo văn bản. Phản ứng của cộng đồng tập trung vào sự tinh tế của việc tích hợp các bộ mã hóa phương thức vào xương sống của LLM, với @googlegemma, @googleaidevs, @mtschannen và @armandjoulin đều nhấn mạnh cùng một điểm. Hỗ trợ công cụ đã có ngay lập tức trên vLLM, Ollama, llama.cpp/MLX thông qua @osanseviero và Unsloth GGUFs, được cho là cho phép chạy cục bộ chỉ với 8GB RAM ở dạng lượng tử hóa. Việc Ideogram chuyển sang trọng số mở có ý nghĩa ngang với chính mô hình: Ideogram 4.0 được công bố là "mô hình hình ảnh mở tốt nhất thế giới", với trọng số mở và triển khai ngay lập tức thông qua fal và Hugging Face tại đây. Arena nhanh chóng xếp Ideogram-4.0-Quality ở vị trí thứ 8 tổng thể và thứ 1 trong số các mô hình mở, với những cải tiến đặc biệt mạnh mẽ trong việc hiển thị văn bản và thiết kế thương hiệu/thương mại. Bản phát hành mở đó đã nhận được sự chú ý lớn vì Ideogram trước đây được coi là rất tập trung vào thiết kế nhưng đóng; sự thay đổi này đã được @multimodalart và @cloneofsimo ghi nhận. Âm thanh mở cũng có một ngày mạnh mẽ: Miso One ra mắt dưới dạng mô hình TTS trọng số mở 8B với khả năng nhân bản giọng nói một lần và tuyên bố độ trễ 110ms, nhằm mục đích lồng tiếng biểu cảm hơn. Fun-Realtime-TTS của Alibaba cũng chiếm vị trí số 1 trên Speech Arena của Artificial Analysis với 1219 Elo, vượt qua Gemini 3.1 Flash TTS và Inworld, với giá 27,59 USD / 1 triệu ký tự. Riêng biệt, Magenta RealTime 2 của Google được nhấn mạnh là một trình tạo nhạc liên tục có trọng số mở, độ trễ thấp để sử dụng trên thiết bị. Mô hình lớn hơn là AI cục bộ đang trở thành mục tiêu triển khai chính thống: @ggerganov đã chỉ ra Computex là một tín hiệu mạnh mẽ cho các tác vụ AI cục bộ; @rasbt cũng chỉ ra một hệ sinh thái phần cứng tiêu dùng, trọng số mở đang phát triển. Đề xuất của Microsoft về Surface Laptop Ultra—lên đến 1 PFLOP tính toán AI, 128GB bộ nhớ hợp nhất, GPU RTX—phù hợp với xu hướng tương tự từ phía phần cứng. Các tác nhân, khung điều khiển và sự chuyển dịch từ khung công tác sang các lớp thực thi Trọng tâm đang chuyển từ "khung công tác" sang các khung điều khiển tác nhân và môi trường thực thi: Một số bài đăng đã hội tụ cùng một ý tưởng. @gakonst lập luận rằng ngăn xếp IDE trong tương lai ít liên quan đến trình chỉnh sửa mã hơn và nhiều hơn đến việc thay thế các tệp bằng các luồng và gói các vòng lặp lập kế hoạch/thiết kế/xây dựng/triển khai/giám sát—để lại các công cụ cộng tác/đồng bộ hóa như một vấn đề chưa được giải quyết. Trong một bản tóm tắt phỏng vấn bổ sung, @ConorBronsdon đã báo cáo Jerry Liu's vi