Bỏ qua tới nội dung chính
Quay lại tin tức

Tác nhân AI mới của Gemini có hiệu suất tương đương với bản demo của Google.

The Verge AI· Jay Peters· 1/6/2026startup

Các nhà nghiên cứu tại Đại học Carnegie Mellon đã phát triển một phương pháp mới để tạo ra các hình ảnh 3D chất lượng cao từ một bức ảnh 2D duy nhất. Phương pháp này, được gọi là "3D-aware Diffusion Model" (Mô hình khuếch tán nhận biết 3D), sử dụng một mạng nơ-ron để học cách tạo ra các hình ảnh 3D từ dữ liệu 2D. Mô hình khuếch tán nhận biết 3D có khả năng tạo ra các hình ảnh 3D chân thực và chi tiết, ngay cả khi chỉ được cung cấp một bức ảnh 2D duy nhất. Điều này đạt được bằng cách sử dụng một kỹ thuật mới gọi là "khuếch tán có điều kiện", cho phép mô hình tạo ra các hình ảnh 3D phù hợp với nội dung của bức ảnh 2D đầu vào. Các nhà nghiên cứu đã thử nghiệm mô hình của họ trên nhiều tập dữ liệu khác nhau, bao gồm các vật thể, khuôn mặt và cảnh quan. Kết quả cho thấy mô hình khuếch tán nhận biết 3D có thể tạo ra các hình ảnh 3D chất lượng cao, vượt trội so với các phương pháp hiện có. Công nghệ này có nhiều ứng dụng tiềm năng, bao gồm tạo nội dung cho thực tế ảo và thực tế tăng cường, thiết kế sản phẩm và y học. Ví dụ, các bác sĩ có thể sử dụng công nghệ này để tạo ra các mô hình 3D về các cơ quan nội tạng của bệnh nhân, giúp họ lập kế hoạch phẫu thuật tốt hơn. Mô hình khuếch tán nhận biết 3D vẫn đang trong giai đoạn phát triển, nhưng nó đã cho thấy tiềm năng to lớn trong việc cách mạng hóa cách chúng ta tạo và tương tác với nội dung 3D.

TechCloseTech Các bài đăng từ chủ đề này sẽ được thêm vào bản tóm tắt email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả công nghệ AICloseAI Các bài đăng từ chủ đề này sẽ được thêm vào bản tóm tắt email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả AI ReportCloseReport Các bài đăng từ chủ đề này sẽ được thêm vào bản tóm tắt email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả báo cáo Tác nhân AI mới của Gemini tốt như bản demo của Google Gemini Spark rất ấn tượng, nhưng chưa đáng để chi trả. Gemini Spark rất ấn tượng, nhưng chưa đáng để chi trả. bởi Jay PetersClose Jay Peters Phóng viên cấp cao Các bài đăng từ tác giả này sẽ được thêm vào bản tóm tắt email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả của Jay Peters Ngày 1/6/2026, 8:00 PM UTC Liên kết Chia sẻ Tặng Ảnh của Allison Johnson / The Verge Một phần của Google I/O 2026: Tất cả tin tức và thông báo xem tất cả các cập nhật Jay PetersClose Jay Peters Các bài đăng từ tác giả này sẽ được thêm vào bản tóm tắt email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả của Jay Peters là một phóng viên cấp cao chuyên về công nghệ, trò chơi và nhiều lĩnh vực khác. Ông gia nhập The Verge vào năm 2019 sau gần hai năm làm việc tại Techmeme. Tác nhân AI “24/7” mới của Google, Gemini Spark, có thể thực hiện các tác vụ thay mặt quý vị một cách đáng kinh ngạc. Tuy nhiên, tôi không chắc nó đáng để chi trả về mặt tài chính và những đánh đổi tiềm ẩn về quyền riêng tư. Công ty đã cấp cho tôi quyền truy cập vào Spark vào tuần trước. Google quảng cáo Spark là một tác nhân AI có thể đảm nhận các tác vụ và thực hiện chúng trong nền – ngay cả những tác vụ có nhiều bước – cho phép quý vị đặt điện thoại xuống hoặc rời khỏi máy tính. Google cũng quảng cáo ngay trên đầu trang web của Spark rằng nó “luôn theo chỉ dẫn của quý vị”, rằng “quý vị chọn bật nó lên” và rằng “nó được thiết kế để kiểm tra với quý vị trước khi thực hiện các hành động lớn”. Với sự hoài nghi ngày càng tăng đối với AI, điều này rất giống với câu nói “chiếc áo phông ‘không liên quan đến AI nổi loạn’ của tôi đã khiến mọi người đặt câu hỏi đã được trả lời bởi chiếc áo của tôi”. Tôi không biết bắt đầu từ đâu, vì vậy tôi đã học theo đồng nghiệp Antonio: Tôi quyết định sử dụng Spark để giải quyết các tác vụ tương tự như những gì Google đã trình diễn trên sân khấu I/O. Liệu nó có hoạt động tốt trong văn phòng tại nhà của tôi như trên sân khấu lớn không? Josh Woodward của Google đang trình diễn Spark. Ảnh của Allison Johnson / The Verge Tại I/O, Phó Chủ tịch Google Josh Woodward đã trình bày một vài ví dụ khác nhau. Đầu tiên là yêu cầu Spark soạn một email gửi đến một nhóm tại Google, tổng hợp mọi thứ về các đợt ra mắt Gemini Live và “những thành công từ tuần trước”, đồng thời sử dụng một kỹ năng AI đặc biệt để làm cho email nghe giống như ông ấy. Việc Google yêu cầu Google làm mọi thứ cho Google lẽ ra phải là điều dễ dàng nhất trên thế giới, vì vậy tôi đã cố gắng đẩy nó đi xa hơn. Tôi đã yêu cầu Gemini soạn một email gửi cho vợ tôi, tổng hợp tổng chi tiêu trung bình hàng tháng của chúng tôi cho hàng tạp hóa vào năm 2026. Tôi nghĩ rằng thử nghiệm này sẽ cho tôi biết một vài điều: Liệu Spark có thể tìm ra vợ tôi là ai (mà không cần tôi cung cấp tên của cô ấy cho Spark), liệu nó có thể xác định vị trí bảng tính ngân sách của chúng tôi trong Drive (mà không có từ “ngân sách” trong tên tệp) và liệu nó có thực sự có thể soạn một email trong Gmail không? Khi nhận được kết quả từ Spark ngay sau đó, tôi thực sự đã thốt lên: “Chà, điều này thật điên rồ.” Spark đã tìm thấy địa chỉ email của vợ tôi, lấy thông tin chính xác từ bảng tính ngân sách năm 2026 của chúng tôi, tổng hợp các khoản chi tiêu hàng tháng cho thực phẩm bao gồm cả dữ liệu chưa hoàn chỉnh từ tháng 5 (tháng đó vẫn chưa kết thúc khi tôi chạy thử nghiệm), tính trung bình các khoản tổng cộng, và đưa tất cả vào một bản nháp email trong Gmail của tôi. Nội dung email đã xưng hô với vợ tôi bằng tên riêng, mặc dù địa chỉ email của cô ấy không chứa tên riêng. Nó thậm chí còn bao gồm một lời chào kết mà chúng tôi chỉ dùng cho nhau. Trong ví dụ tiếp theo, Woodward đã yêu cầu một số trợ giúp lập kế hoạch cho một bữa tiệc khu phố. Tôi không có kế hoạch tổ chức bữa tiệc khu phố, nhưng tôi đã yêu cầu Spark giúp đỡ bằng cách sử dụng những câu hỏi tương tự mà anh ấy đã hỏi. Kết quả không tốt. Nó đã tạo ra một bảng bạn bè và gia đình như một “tài liệu tham khảo rất thực tế về việc ai sẽ mang gì,” soạn thảo một email trong Gmail của tôi đề cập đến một bảng đăng ký chung không tồn tại, và tạo ra một bản trình bày xấu xí với các slide chi tiết thông tin về giấy phép của thành phố. Để thúc đẩy Spark, tôi đã yêu cầu nó tạo ra bảng đăng ký bị thiếu đó và thêm một liên kết vào email đã được soạn thảo. Mặc dù Spark mất vài phút để tìm ra, nhưng nhiệm vụ đó đã hoạt động; nó đã tạo ra một bảng tính và quay lại văn bản nháp email và chèn liên kết vào. Liên quan Tương lai AI của Google đòi hỏi sự tin tưởng – và dữ liệu cá nhân của bạn Bản trình diễn cuối cùng của Woodward có lẽ là ấn tượng nhất. Anh ấy đã nói chuyện với Spark để yêu cầu nó thực hiện một loạt việc: làm cho các cuộc họp của anh ấy với CEO Sundar Pichai có màu hồng đậm trên lịch của anh ấy, viết một ghi chú cho một người hàng xóm mới để mời anh ấy đến bữa tiệc khu phố của mình, và tạo một tài liệu để giúp quản lý các việc cần làm cho con cái anh ấy vào cuối năm học. Đối với phiên bản của riêng tôi, tôi đã yêu cầu nó tạo một sự kiện lịch hàng tháng trước sinh nhật vợ tôi và làm cho nó có màu hồng đậm, soạn thảo một email cho gia đình tôi về việc gửi cho họ tập đầu tiên của mùa mới nhất của Taskmaster, và tạo một tài liệu với những điều quan trọng nhất mà vợ tôi và tôi cần biết về việc chuẩn bị cho con nhỏ của chúng tôi đi học mẫu giáo. Tôi bắt đầu yêu cầu này vào lúc 3:35 chiều PT vào thứ Sáu. Trong I/O, Woodward đã trình diễn một chút bằng cách đặt điện thoại xuống và hứa sẽ kiểm tra kết quả sau trong bài phát biểu chính, điều mà anh ấy đã làm. Nhưng sau khi giải quyết một trục trặc – Spark muốn truy cập danh bạ của tôi, điều mà tôi đã từ chối – nhiệm vụ của tôi đã hoàn thành khoảng bốn phút sau đó. Một lần nữa, tôi hơi choáng váng với kết quả, mặc dù chúng không hoàn hảo: Lịch Google của tôi hiện có các sự kiện từ 9–10 giờ sáng vào đúng ngày mỗi tháng trước sinh nhật vợ tôi. Các lời nhắc có màu mà Google gọi là “flamingo,” không chính xác là “hồng đậm,” nhưng khá gần. Spark đã lấy địa chỉ email của gia đình trực hệ của tôi và đưa chúng vào một bản nháp email. (Thật kỳ lạ, nó không bao gồm của vợ tôi.) Văn bản email đã ghi đúng tên của tập đầu tiên của mùa mới nhất của Taskmaster, nhưng lại liên kết đến một đoạn giới thiệu thay vì tập thực tế. Email cũng bao gồm thuật ngữ

Nguồn tin: The Verge AI — Tác giả: Jay Peters. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.