Các nhà nghiên cứu tại Đại học Carnegie Mellon đã phát triển một phương pháp mới để tạo ra các hình ảnh 3D có độ phân giải cao từ các mô hình ngôn ngữ lớn (LLM) và các mô hình khuếch tán. Phương pháp này, được gọi là "3D-GPT", cho phép người dùng tạo ra các cảnh 3D phức tạp chỉ bằng cách nhập các mô tả văn bản đơn giản.
3D-GPT hoạt động bằng cách kết hợp sức mạnh của LLM với khả năng tạo hình ảnh của các mô hình khuếch tán. LLM được sử dụng để tạo ra một mô tả chi tiết về cảnh 3D mong muốn, sau đó được sử dụng để hướng dẫn mô hình khuếch tán tạo ra một loạt các hình ảnh 2D từ các góc độ khác nhau. Các hình ảnh 2D này sau đó được kết hợp để tạo ra một mô hình 3D hoàn chỉnh.
Một trong những tính năng chính của 3D-GPT là khả năng tạo ra các cảnh 3D có độ phân giải cao. Điều này đạt được bằng cách sử dụng kỹ thuật được gọi là "nâng cấp siêu phân giải", giúp tăng độ phân giải của các hình ảnh 2D được tạo ra bởi mô hình khuếch tán. Điều này cho phép 3D-GPT tạo ra các mô hình 3D chi tiết và chân thực hơn nhiều so với các phương pháp trước đây.
Một tính năng quan trọng khác của 3D-GPT là khả năng tạo ra các cảnh 3D với nhiều đối tượng và tương tác phức tạp. Điều này đạt được bằng cách sử dụng kỹ thuật được gọi là "tạo cảnh theo ngữ cảnh", giúp đảm bảo rằng các đối tượng trong cảnh được đặt và tương tác theo cách hợp lý. Điều này cho phép 3D-GPT tạo ra các cảnh 3D thực tế và sống động hơn nhiều so với các phương pháp trước đây.
3D-GPT vẫn đang trong giai đoạn phát triển ban đầu, nhưng nó đã cho thấy tiềm năng to lớn trong việc tạo ra các hình ảnh 3D có độ phân giải cao từ các mô tả văn bản. Phương pháp này có thể có nhiều ứng dụng tiềm năng, bao gồm tạo nội dung cho thực tế ảo và tăng cường, thiết kế trò chơi và thiết kế sản phẩm.
Dưới đây là một số lợi ích chính của 3D-GPT:
* **Tạo hình ảnh 3D có độ phân giải cao:** 3D-GPT có thể tạo ra các mô hình 3D chi tiết và chân thực hơn nhiều so với các phương pháp trước đây.
* **Tạo cảnh 3D phức tạp:** 3D-GPT có thể tạo ra các cảnh 3D với nhiều đối tượng và tương tác phức tạp.
* **Dễ sử dụng:** 3D-GPT có thể được sử dụng bởi bất kỳ ai có thể nhập mô tả văn bản đơn giản.
* **Tiềm năng ứng dụng rộng rãi:** 3D-GPT có thể có nhiều ứng dụng tiềm năng, bao gồm tạo nội dung cho thực tế ảo và tăng cường, thiết kế trò chơi và thiết kế sản phẩm.
Nhìn chung, 3D-GPT là một phương pháp đầy hứa hẹn để tạo ra các hình ảnh 3D có độ phân giải cao từ các mô tả văn bản. Phương pháp này có thể có tác động đáng kể đến nhiều lĩnh vực, bao gồm thực tế ảo và tăng cường, thiết kế trò chơi và thiết kế sản phẩm.
Paperium
Đăng ngày 2/6
• Ban đầu được xuất bản tại paperium.net
Xem xét lại tầm quan trọng của các đơn vị riêng lẻ trong CNN thông qua phép cắt bỏ
#ai
#deeplearning
#computerscience
#machinelearning
AI (Chuỗi 3397 phần)
1
Học tập của tác nhân thông qua kinh nghiệm ban đầu
2
MM-HELIX: Tăng cường suy luận phản xạ chuỗi dài đa phương thức với nền tảng toàn diện và tối ưu hóa chính sách lai thích ứng
...
3393 phần khác...
3
MemMamba: Suy nghĩ lại các mẫu bộ nhớ trong mô hình không gian trạng thái
4
UniVideo: Hiểu, tạo và chỉnh sửa video thống nhất
5
VideoCanvas: Hoàn thành video thống nhất từ các bản vá không gian-thời gian tùy ý thông qua điều kiện trong ngữ cảnh
6
DreamOmni2: Chỉnh sửa và tạo đa phương thức dựa trên hướng dẫn
7
Từ cái gì đến tại sao: Một hệ thống đa tác nhân để suy luận điều kiện phản ứng hóa học dựa trên bằng chứng
8
Nhận thức siêu nhận thức tăng cường mô hình suy luận: Học tăng cường tự điều chỉnh
9
Khi suy nghĩ gặp sự thật: Suy luận có thể tái sử dụng cho các mô hình ngôn ngữ lớn có ngữ cảnh dài
10
Các token có xác suất thấp duy trì khám phá trong học tăng cường với phần thưởng có thể kiểm chứng
11
Vũ điệu điều chỉnh: Đào tạo đồng thời các tác nhân để hợp tác vì sự an toàn
12
Tối ưu hóa chính sách tương đối nhóm không cần đào tạo
13
Tăng cường lai: Khi phần thưởng thưa thớt, dày đặc sẽ tốt hơn
14
NewtonBench: Đánh giá khám phá luật khoa học tổng quát trong các tác nhân LLM
15
ARTDECO: Hướng tới tái tạo 3D hiệu quả và độ trung thực cao tức thì với biểu diễn cảnh có cấu trúc
16
DeepPrune: Mở rộng song song không có sự dư thừa giữa các dấu vết
17
Lần thử đầu tiên quan trọng: Xem xét lại vai trò của sự phản ánh trong các mô hình suy luận
18
LLM học cách lừa dối một cách vô ý: Sự sai lệch xuất hiện trong sự không trung thực từ các mẫu sai lệch đến tương tác người-AI thiên vị
19
UniMMVSR: Một khung đa phương thức thống nhất để siêu phân giải video xếp tầng
20
NaViL: Suy nghĩ lại các thuộc tính mở rộng của các mô hình ngôn ngữ lớn đa phương thức gốc dưới các ràng buộc dữ liệu
21
CoMAS: Các hệ thống đa tác nhân cùng phát triển thông qua phần thưởng tương tác
22
PickStyle: Chuyển đổi phong cách video sang video với bộ điều hợp ngữ cảnh-phong cách
23
UNIDOC-BENCH: Một điểm chuẩn thống nhất cho RAG đa phương thức tập trung vào tài liệu
24
InstructX: Hướng tới chỉnh sửa hình ảnh thống nhất với hướng dẫn MLLM
25
LongRM: Tiết lộ và mở khóa ranh giới ngữ cảnh của mô hình hóa phần thưởng
26
Học trong công việc: Một tác nhân tự tiến hóa dựa trên kinh nghiệm cho các nhiệm vụ dài hạn
27
Tăng cường mô hình khuếch tán bằng cách tối ưu hóa ưu tiên nhóm trực tiếp
28
Kiểm soát tạo video chuyển văn bản thành âm thanh thông qua điều kiện và tương tác phương thức nâng cao
29
Kích hoạt điều hòa entropy: Tăng cường kiểm soát liên tục, mô hình ngôn ngữ lớn và phân loại hình ảnh với kích hoạt như
30
Truy xuất và củng cố bộ nhớ trong các mô hình ngôn ngữ lớn thông qua các token chức năng
31
Tái chế các điểm kiểm tra được đào tạo trước: Tăng trưởng trực giao của hỗn hợp chuyên gia để đào tạo trước mô hình ngôn ngữ lớn hiệu quả
32
GCPO: Khi độ tương phản thất bại, hãy chọn vàng
33
UP2You: Tái tạo nhanh chóng bản thân từ các bộ sưu tập ảnh không bị ràng buộc
34
OmniRetarget: Tạo dữ liệu bảo toàn tương tác cho thao tác di chuyển và tương tác cảnh toàn thân hình người
35
DexNDM: Thu hẹp khoảng cách thực tế cho vòng quay khéo léo trong tay thông qua mô hình động lực học thần kinh khớp
36
A^2Search: Trả lời câu hỏi nhận biết sự mơ hồ bằng học tăng cường
37
Học cách định tuyến các mô hình ngôn ngữ lớn (LLM) từ phản hồi Bandit: Một chính sách, nhiều sự đánh đổi
38
Search-R3: Thống nhất suy luận và tạo nhúng trong các mô hình ngôn ngữ lớn
39
R2RGEN: Tạo dữ liệu 3D từ thực tế sang thực tế để thao tác tổng quát hóa không gian
40
Drive&Gen: Đồng đánh giá các mô hình lái xe đầu cuối và tạo video
41
Vượt ra ngoài các giá trị ngoại lai: Một nghiên cứu về các bộ tối ưu hóa dưới lượng tử hóa
42
SViM3D: Khuếch tán vật liệu video ổn định để tạo 3D từ một hình ảnh
43
GyroSwin: Các mô hình thay thế 5D cho mô phỏng nhiễu loạn plasma Gyrokinetic
44
Hướng tới chỉnh sửa 3D có thể mở rộng và nhất quán
45
Sử dụng mạng trực tuyến nếu có thể: Hướng tới học tăng cường nhanh và ổn định
46
Thành phần dữ liệu nhận biết độ trung thực để tổng quát hóa robot mạnh mẽ
47
SciVideoBench: Đánh giá lý luận video khoa học trong các mô hình đa phương thức lớn
48
Khuếch tán quy mô lớn thông qua tính nhất quán thời gian liên tục được điều chỉnh theo điểm số
49
Vượt qua giới hạn lượt: Huấn luyện các tác nhân tìm kiếm sâu với cửa sổ ngữ cảnh động
50
OpenRubrics: Hướng tới tạo Rubric tổng hợp có thể mở rộng để mô hình hóa phần thưởng và căn chỉnh LLM
51
Tư duy bằng camera: Một mô hình đa phương thức thống nhất để hiểu và tạo lấy camera làm trung tâm
52
D2E: Mở rộng tiền huấn luyện thị giác-hành động trên dữ liệu máy tính để chuyển sang AI thể hiện
53
TAG: Hướng dẫn khuếch đại tiếp tuyến để lấy mẫu khuếch tán chống ảo giác
54
Tối ưu hóa lời nhắc đa phương thức: Tại sao không tận dụng nhiều phương thức cho MLLM
55
AutoPR: Hãy tự động hóa việc thăng tiến học thuật của bạn!
56
R-Horizon: Mô hình suy luận lớn của bạn thực sự có thể đi được bao xa về chiều rộng và chiều sâu?
57
Webscale-RL: Quy trình dữ liệu tự động để mở rộng dữ liệu RL đến mức tiền huấn luyện
58
SpaceVista: Lý luận không gian trực quan mọi quy mô từ mm đến km
59
StreamingVLM: Hiểu biết thời gian thực cho các luồng video vô hạn
60
Đừng lãng phí sai lầm: Tận dụng các nhóm RL tiêu cực thông qua việc điều chỉnh lại độ tin cậy
61
ARES: Lý luận thích ứng đa phương thức thông qua định hình entropy cấp mã thông báo nhận biết độ khó
62
KORMo: Mô hình suy luận mở tiếng Hàn dành cho mọi người
63
DISCO: Đa dạng hóa việc cô đặc mẫu để đánh giá mô hình hiệu quả
64
Kết nối lý luận với học tập: Làm sáng tỏ ảo ảnh bằng cách tổng quát hóa độ phức tạp ngoài phân phối
65
Biến đổi Gaussian lũy tiến với mẫu nhận biết dị hướng
Nguồn tin: Dev.to Machine Learning — Tác giả: Paperium. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.