Trợ lý AI đàm thoại của Adobe là một thực tập sinh thiết kế tầm…

Các nhà nghiên cứu tại Đại học Carnegie Mellon đã phát triển một phương pháp mới để tạo ra các hình ảnh 3D chất lượng cao từ một bức ảnh 2D duy nhất. Phương pháp này, được gọi là "3D-aware Diffusion Model" (Mô hình khuếch tán nhận biết 3D), sử dụng mạng lưới thần kinh để học cách tạo ra các hình ảnh 3D nhất quán từ nhiều góc độ khác nhau. Mô hình khuếch tán nhận biết 3D hoạt động bằng cách kết hợp sức mạnh của các mô hình khuếch tán (diffusion models) với khả năng hiểu biết về 3D. Các mô hình khuếch tán là một loại mô hình tạo sinh (generative model) có thể tạo ra hình ảnh thực tế từ nhiễu ngẫu nhiên. Bằng cách tích hợp nhận thức 3D vào các mô hình này, các nhà nghiên cứu có thể tạo ra các hình ảnh 3D không chỉ thực tế mà còn nhất quán về mặt hình học. Một trong những thách thức chính trong việc tạo ra các hình ảnh 3D từ một bức ảnh 2D duy nhất là thiếu thông tin về chiều sâu. Mô hình khuếch tán nhận biết 3D giải quyết vấn đề này bằng cách sử dụng mạng lưới thần kinh để ước tính thông tin chiều sâu từ bức ảnh 2D. Sau đó, thông tin chiều sâu này được sử dụng để tạo ra một biểu diễn 3D của cảnh. Mô hình khuếch tán nhận biết 3D có thể được sử dụng cho nhiều ứng dụng khác nhau, bao gồm: * **Tạo nội dung 3D:** Mô hình này có thể được sử dụng để tạo ra các mô hình 3D của các đối tượng và cảnh cho trò chơi điện tử, phim ảnh và các ứng dụng thực tế ảo/thực tế tăng cường. * **Chỉnh sửa ảnh:** Mô hình này có thể được sử dụng để chỉnh sửa ảnh 2D theo cách nhận biết 3D, chẳng hạn như thay đổi góc nhìn của một đối tượng hoặc thêm các đối tượng mới vào cảnh. * **Robot học:** Mô hình này có thể được sử dụng để giúp robot hiểu được môi trường xung quanh và điều hướng trong đó. Các nhà nghiên cứu đã công bố kết quả của họ trong một bài báo có tiêu đề "3D-aware Diffusion Models for Single-View 3D Reconstruction". Mã nguồn cho mô hình này có sẵn trên GitHub.

TechCloseTech Các bài viết từ chủ đề này sẽ được thêm vào bản tin email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả Tech AICloseAI Các bài viết từ chủ đề này sẽ được thêm vào bản tin email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả AI ReportCloseReport Các bài viết từ chủ đề này sẽ được thêm vào bản tin email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả Report Trợ lý AI đàm thoại của Adobe là một thực tập sinh thiết kế tầm thường Trợ lý AI Firefly không tốt bằng một nhà thiết kế hoặc biên tập viên ảnh chuyên nghiệp, nhưng thật thú vị khi xem nó hoạt động. bởi Jess WeatherbedClose Jess Weatherbed Phóng viên tin tức Các bài viết từ tác giả này sẽ được thêm vào bản tin email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả của Jess Weatherbed Ngày 29/5/2026, 10:00 AM UTC Liên kết Chia sẻ Tặng Nó giải thích quá trình thực hiện các chỉnh sửa này một cách tuyệt vời, tôi chỉ không quá ấn tượng với kết quả. | Hình ảnh của Jess Weatherbed / The Verge Jess WeatherbedClose Jess Weatherbed Các bài viết từ tác giả này sẽ được thêm vào bản tin email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả của Jess Weatherbed là một phóng viên tin tức tập trung vào các ngành công nghiệp sáng tạo, máy tính và văn hóa internet. Jess bắt đầu sự nghiệp tại TechRadar, đưa tin tức và đánh giá phần cứng. Các công cụ hình ảnh AI hiếm khi khiến tôi cảm thấy mình là một phần của quá trình sáng tạo. Rốt cuộc, chúng chủ yếu được thiết kế để những người không có kinh nghiệm thiết kế có thể nhập vài từ và nhận được kết quả có thể sử dụng được. Vì vậy, tôi đã rất ngạc nhiên với cách tiếp cận mới nhất của Adobe về một trợ lý hình ảnh AI: đó là một bot được thiết kế để giảm bớt một số công việc bận rộn, đồng thời vẫn cho phép bạn kiểm soát sáng tạo. Không giống như các trình tạo AI được thiết kế đặc biệt để tạo và chỉnh sửa hình ảnh hoặc video, Trợ lý AI Firefly của Adobe, mà tôi đã thử nghiệm trong phiên bản beta, giống như một người trung gian đa nhiệm có thể vận hành các ứng dụng thiết kế của Adobe cho bạn. Trên trang web của mình, Adobe cho biết bạn chỉ cần "nói với Trợ lý AI Firefly (beta) những gì bạn cần, và nó sẽ sử dụng các công cụ từ các ứng dụng như Photoshop, Illustrator, và nhiều ứng dụng khác để hoàn thành các dự án nhiều bước trong tích tắc." Giao diện người dùng trông giống như một chatbot thông thường. Có một hộp văn bản bạn có thể nhập lời nhắc vào và một biểu tượng dấu cộng để tải lên các tệp phương tiện. Nó không sử dụng các ứng dụng Adobe thực tế trên máy tính của bạn, nhưng nó có quyền truy cập vào các khả năng phổ biến như tạo mặt nạ (masking), phát hiện đối tượng (object detection) và tạo hình ảnh (image generation). Trợ lý AI được thiết kế để đàm thoại, vì vậy bạn có thể yêu cầu chatbot "làm cho bức ảnh này nhiều màu sắc hơn", và nó sẽ làm như vậy trong khi giải thích các hành động của mình. TrướcTiếp theo 1/3Đây là một bức ảnh chưa chỉnh sửa của tôi mà tôi đã sử dụng để thử nghiệm. Tôi cố tình chọn một bức ảnh có ánh sáng bất thường. Hình ảnh: Jess Weatherbed / The Verge Các chỉnh sửa ảnh và hình minh họa được hoàn thành bởi AI của Adobe rất thuyết phục khi nhìn thoáng qua. Nó đã thay đổi màu tóc của tôi trong một bức ảnh và sau đó là vị trí nền và ánh sáng trong một bức ảnh khác. Kết quả không hoàn hảo: một số có màu sắc quá sống động hoặc các chỉnh sửa chưa được hòa trộn đúng cách vào môi trường xung quanh. Nhưng tôi nghi ngờ rằng người bình thường sẽ không cho rằng kết quả của tôi được tạo hoặc thao túng bằng AI — nó chỉ trông giống như tác phẩm của một nhà thiết kế nghiệp dư. Điều thực sự khiến Firefly AI Assistant trở nên hấp dẫn là cách nó tương tác với người dùng. Khi được cung cấp một bức ảnh chụp mèo của người dùng bên cửa sổ và yêu cầu làm cho bầu trời không có mây và nắng, chatbot không chỉ đơn thuần trả về hình ảnh đã chỉnh sửa. Thay vào đó, nó mô tả chi tiết cảnh trong ảnh gốc một cách đáng ngạc nhiên (nó đã xác định chính xác rằng mèo của người dùng là giống Maine Coon mặc dù bức ảnh chủ yếu chỉ hiển thị phần sau của con mèo), sau đó giải thích cách nó sẽ đạt được kết quả theo yêu cầu. Chatbot đề cập đến các công cụ cụ thể từ Photoshop và Lightroom bằng cách sử dụng thuật ngữ chỉnh sửa đã được thiết lập, giải thích quy trình từng bước. Người dùng không thể xem hình ảnh được chỉnh sửa theo thời gian thực, nhưng chatbot sẽ cho biết các tính năng mà nó đang sử dụng để đạt được từng kết quả. Dưới đây là một bức ảnh gốc chụp mèo Trevor của người dùng đang quan sát "vương quốc" của mình… Ảnh: Jess Weatherbed / The Verge …và kết quả khi người dùng yêu cầu chatbot “xóa mây trong ảnh này và làm cho bầu trời trông nắng và sáng.” Ảnh: Jess Weatherbed / The Verge Firefly AI Assistant cũng thẳng thắn một cách đáng ngạc nhiên về những hạn chế của nó. Khi người dùng yêu cầu tách các đối tượng từ một tệp JPG thành các lớp riêng biệt, Firefly cho biết nó không thể làm như vậy, nhưng đã đưa ra hai hướng hành động khác nhau để chia hình ảnh thành các yếu tố riêng biệt, giải thích ưu và nhược điểm của cả hai. Sau khi người dùng chọn một, bot sau đó mô tả quy trình chỉnh sửa của nó, bao gồm cả việc những gì nó đang làm không hiệu quả. Nó viết: “Tôi nhận thấy phương pháp làm mờ Gaussian không mang lại các đường cắt trong suốt thực sự – nó xuất ra các tệp PNG toàn bộ hình ảnh.” Chatbot đã tự điều chỉnh và sử dụng mặt nạ cùng công cụ cắt và thay đổi kích thước hình ảnh của Adobe thay thế. Trước Tiếp theo 1/2 Nó thực sự bắt đầu gặp khó khăn khi tôi yêu cầu nó tách các đối tượng trong một hình ảnh thành các yếu tố riêng biệt. Ảnh: Jess Weatherbed / The Verge Người dùng cũng có thể yêu cầu chatbot thêm các đối tượng mới vào hình ảnh, tương tự như tính năng Generative Fill của Photoshop hoặc Magic Editor của Google. Nó không ngần ngại thêm xì gà, thuốc lá cuốn (hay còn gọi là “thuốc lá cuốn thủ công”) và thậm chí cả súng vào các bức ảnh của người dùng, nhưng từ chối tạo ra bất cứ thứ gì hoàn toàn bất hợp pháp. Người dùng có thể tạo một bìa album rõ ràng là giả của mình đang chĩa súng vào “máy ảnh”, nhưng không thể làm cho mình trông như đang bắn ai đó. Kết quả cho những loại chỉnh sửa này cũng kém chất lượng về mặt hình ảnh so với việc yêu cầu những thứ không nhất thiết cần đến các công cụ AI tạo sinh, chẳng hạn như điều chỉnh ánh sáng, nhưng không thể nói là chúng hoàn toàn tệ – chúng chỉ không đủ tốt để có thể đánh lừa người dùng. Nó cũng từ chối thay đổi hình dạng hoặc kích thước khuôn mặt và cơ thể của người dùng, hoặc đặt người dùng vào trang phục hở hang – điều mà Grok có thể cần một số lưu ý. Việc ra lệnh cho các chatbot thường khiến người dùng cảm thấy như đang hỏi đường một linh vật công viên giải trí – sự nhiệt tình liên tục thật đáng lo ngại.