Các nhà nghiên cứu tại Đại học Carnegie Mellon đã phát triển một phương pháp mới để tạo ra các hình ảnh 3D có độ phân giải cao từ các mô hình ngôn ngữ lớn (LLM) và các mô hình khuếch tán (diffusion models). Phương pháp này, được gọi là "3D-GPT", sử dụng các mô hình ngôn ngữ để tạo ra các mô tả chi tiết về các đối tượng 3D, sau đó sử dụng các mô hình khuếch tán để biến các mô tả này thành hình ảnh 3D thực tế.
3D-GPT có thể tạo ra các hình ảnh 3D với độ chi tiết và độ chân thực cao, vượt trội so với các phương pháp hiện có. Phương pháp này cũng có thể tạo ra các hình ảnh 3D từ các mô tả văn bản đơn giản, giúp người dùng dễ dàng tạo ra các đối tượng 3D mà không cần có kiến thức chuyên sâu về thiết kế 3D.
Các nhà nghiên cứu tin rằng 3D-GPT có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm thiết kế sản phẩm, trò chơi điện tử, phim ảnh và thực tế ảo. Phương pháp này cũng có thể được sử dụng để tạo ra các mô hình 3D cho các ứng dụng y tế và khoa học.
**Cách thức hoạt động của 3D-GPT**
3D-GPT hoạt động theo hai giai đoạn chính:
1. **Tạo mô tả 3D:** Giai đoạn này sử dụng một LLM để tạo ra các mô tả chi tiết về các đối tượng 3D. LLM được huấn luyện trên một tập dữ liệu lớn gồm các mô tả văn bản và hình ảnh 3D, cho phép nó học cách liên kết các từ với các đặc điểm hình học và vật liệu của đối tượng.
2. **Tạo hình ảnh 3D:** Giai đoạn này sử dụng một mô hình khuếch tán để biến các mô tả 3D thành hình ảnh 3D thực tế. Mô hình khuếch tán được huấn luyện trên một tập dữ liệu lớn gồm các hình ảnh 3D, cho phép nó học cách tạo ra các hình ảnh 3D có độ chi tiết và độ chân thực cao.
**Ưu điểm của 3D-GPT**
* **Độ chi tiết và độ chân thực cao:** 3D-GPT có thể tạo ra các hình ảnh 3D với độ chi tiết và độ chân thực cao, vượt trội so với các phương pháp hiện có.
* **Dễ sử dụng:** Phương pháp này có thể tạo ra các hình ảnh 3D từ các mô tả văn bản đơn giản, giúp người dùng dễ dàng tạo ra các đối tượng 3D mà không cần có kiến thức chuyên sâu về thiết kế 3D.
* **Tiềm năng ứng dụng rộng rãi:** 3D-GPT có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm thiết kế sản phẩm, trò chơi điện tử, phim ảnh và thực tế ảo.
**Hạn chế của 3D-GPT**
* **Yêu cầu tài nguyên tính toán lớn:** 3D-GPT yêu cầu tài nguyên tính toán lớn để huấn luyện và chạy các mô hình.
* **Chưa thể tạo ra các đối tượng 3D phức tạp:** Phương pháp này vẫn còn hạn chế trong việc tạo ra các đối tượng 3D phức tạp với nhiều chi tiết và tương tác.
**Tương lai của 3D-GPT**
Các nhà nghiên cứu đang tiếp tục phát triển 3D-GPT để cải thiện hiệu suất và khả năng của nó. Họ hy vọng rằng trong tương lai, 3D-GPT có thể được sử dụng để tạo ra các đối tượng 3D phức tạp hơn và có thể được tích hợp vào các ứng dụng thiết kế 3D hiện có.
Paperium
Đăng ngày 20/5
• Ban đầu được xuất bản tại paperium.net
Collaborative City Digital Twin For Covid-19 Pandemic: A Federated Learning Solution (Bản sao số thành phố hợp tác cho đại dịch Covid-19: Một giải pháp học máy liên kết)
#ai
#deeplearning
#computerscience
#machinelearning
AI (Loạt bài 3110 phần)
1
Agent Learning via Early Experience (Học tập của tác nhân thông qua kinh nghiệm ban đầu)
2
MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization (MM-HELIX: Thúc đẩy suy luận phản xạ chuỗi dài đa phương thức với nền tảng toàn diện và tối ưu hóa chính sách lai thích ứng)
...
3106 phần khác...
3
MemMamba: Rethinking Memory Patterns in State Space Model (MemMamba: Suy nghĩ lại các mẫu bộ nhớ trong mô hình không gian trạng thái)
4
UniVideo: Unified Understanding, Generation, and Editing for Videos (UniVideo: Hiểu, tạo và chỉnh sửa video thống nhất)
5
VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning (VideoCanvas: Hoàn thành video thống nhất từ các bản vá không gian-thời gian tùy ý thông qua điều kiện theo ngữ cảnh)
6
DreamOmni2: Multimodal Instruction-based Editing and Generation (DreamOmni2: Chỉnh sửa và tạo dựa trên hướng dẫn đa phương thức)
7
From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning (Từ cái gì đến tại sao: Một hệ thống đa tác nhân để suy luận điều kiện phản ứng hóa học dựa trên bằng chứng)
8
Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning (Nhận thức siêu cấp tăng cường các mô hình suy luận: Học tăng cường tự điều chỉnh)
9
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs (Khi suy nghĩ gặp sự thật: Suy luận có thể tái sử dụng cho các mô hình ngôn ngữ lớn (LM) ngữ cảnh dài)
10
Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward (Các token xác suất thấp duy trì khám phá trong học tăng cường với phần thưởng có thể kiểm chứng)
11
The Alignment Waltz: Jointly Training Agents to Collaborate for Safety (Điệu nhảy căn chỉnh: Đào tạo chung các tác nhân để hợp tác vì an toàn)
12
Training-Free Group Relative Policy Optimization (Tối ưu hóa chính sách tương đối nhóm không cần đào tạo)
13
Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense (Tăng cường lai: Khi phần thưởng thưa thớt, tốt hơn là nên dày đặc)
14
NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents (NewtonBench: Đánh giá khám phá luật khoa học tổng quát trong các tác nhân mô hình ngôn ngữ lớn (LLM))
15
ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation (ARTDECO: Hướng tới tái tạo 3D hiệu quả và độ trung thực cao tức thì với biểu diễn cảnh có cấu trúc)
16
DeepPrune: Parallel Scaling without Inter-trace Redundancy (DeepPrune: Mở rộng song song không có sự dư thừa giữa các dấu vết)
17
First Try Matters: Revisiting the Role of Reflection in Reasoning Models (Lần thử đầu tiên quan trọng: Xem xét lại vai trò của sự phản ánh trong các mô hình suy luận)
18
LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interaction (Các mô hình ngôn ngữ lớn (LLM) học cách lừa dối một cách vô ý: Sự sai lệch xuất hiện trong sự không trung thực từ các mẫu sai lệch đến tương tác thiên vị giữa con người và AI)
19
UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution (UniMMVSR: Một khung đa phương thức thống nhất cho siêu phân giải video xếp tầng)
20
NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints (NaViL: Suy nghĩ lại các thuộc tính mở rộng của các mô hình ngôn ngữ lớn đa phương thức gốc dưới các ràng buộc dữ liệu)
21
CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards (CoMAS: Các hệ thống đa tác nhân đồng tiến hóa thông qua phần thưởng tương tác)
22
PickStyle: Video-to-Video Style Transfer with Context-Style Adapters (PickStyle: Chuyển đổi phong cách video sang video với bộ điều hợp phong cách ngữ cảnh)
23
UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG (UNIDOC-BENCH: Một tiêu chuẩn thống nhất cho RAG đa phương thức tập trung vào tài liệu)
24
InstructX: Towards Unified Visual Editing with MLLM Guidance (InstructX: Hướng tới chỉnh sửa hình ảnh thống nhất với hướng dẫn của mô hình ngôn ngữ lớn đa phương thức (MLLM))
25
LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling (LongRM: Tiết lộ và mở khóa ranh giới ngữ cảnh của mô hình hóa phần thưởng)
26
Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks (Học trong công việc: Một tác nhân tự tiến hóa dựa trên kinh nghiệm cho các nhiệm vụ dài hạn)
27
Reinforcing Diffusion Models by Direct Group Preference Optimization (Tăng cường các mô hình khuếch tán bằng cách tối ưu hóa ưu tiên nhóm trực tiếp)
28
Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction (Kiểm soát việc tạo video từ văn bản thành âm thanh thông qua điều kiện và tương tác phương thức nâng cao)
29
Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as (Kích hoạt điều hòa Entropy: Thúc đẩy kiểm soát liên tục, các mô hình ngôn ngữ lớn và phân loại hình ảnh với kích hoạt là)
30
Memory Retrieval and Consolidation in Large Language Models through Function Tokens (Truy xuất và củng cố bộ nhớ trong các mô hình ngôn ngữ lớn thông qua các token chức năng)
31
Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training (Tái chế các điểm kiểm tra được đào tạo trước: Phát triển trực giao của hỗn hợp chuyên gia để đào tạo trước mô hình ngôn ngữ lớn hiệu quả)
32
GCPO: When Contrast Fails, Go Gold (GCPO: Khi độ tương phản thất bại, hãy chọn vàng)
33
UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections (UP2You: Tái tạo nhanh chóng bản thân từ các bộ sưu tập ảnh không giới hạn)
34
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction (OmniRetarget: Tạo dữ liệu bảo toàn tương tác cho thao tác vận động toàn thân hình người và tương tác cảnh)
35. DexNDM: Thu hẹp khoảng cách thực tế cho khả năng xoay vật thể khéo léo trong lòng bàn tay thông qua mô hình động lực học thần kinh khớp.
36. A^2Search: Trả lời câu hỏi nhận biết sự mơ hồ bằng học tăng cường.
37. Học cách định tuyến LLM từ phản hồi Bandit: Một chính sách, nhiều sự đánh đổi.
38. Search-R3: Thống nhất suy luận và tạo nhúng trong các mô hình ngôn ngữ lớn.
39. R2RGEN: Tạo dữ liệu 3D từ thực tế đến thực tế để thao tác tổng quát hóa không gian.
40. Drive&Gen: Đồng đánh giá các mô hình lái xe và tạo video đầu cuối.
41. Vượt ra ngoài các giá trị ngoại lai: Một nghiên cứu về các bộ tối ưu hóa dưới lượng tử hóa.
42. SViM3D: Khuếch tán vật liệu video ổn định để tạo 3D từ một hình ảnh.
43. GyroSwin: Các mô hình thay thế 5D cho mô phỏng nhiễu loạn plasma Gyrokinetic.
44. Hướng tới chỉnh sửa 3D có thể mở rộng và nhất quán.
45. Sử dụng mạng trực tuyến nếu có thể: Hướng tới học tăng cường nhanh và ổn định.
46. Thành phần dữ liệu nhận biết độ trung thực để tổng quát hóa robot mạnh mẽ.
47. SciVideoBench: Đánh giá suy luận video khoa học trong các mô hình đa phương thức lớn.
48. Khuếch tán quy mô lớn thông qua tính nhất quán thời gian liên tục được điều chỉnh theo điểm số.
49. Vượt qua giới hạn lượt: Huấn luyện các tác nhân tìm kiếm sâu với cửa sổ ngữ cảnh động.
50. OpenRubrics: Hướng tới tạo Rubric tổng hợp có thể mở rộng để mô hình hóa phần thưởng và căn chỉnh LLM.
51. Tư duy bằng camera: Một mô hình đa phương thức thống nhất để hiểu và tạo ra lấy camera làm trung tâm.
52. D2E: Mở rộng tiền huấn luyện thị giác-hành động trên dữ liệu máy tính để chuyển sang AI thể hiện.
53. TAG: Hướng dẫn khuếch đại tiếp tuyến để lấy mẫu khuếch tán chống ảo giác.
54. Tối ưu hóa lời nhắc đa phương thức: Tại sao không tận dụng nhiều phương thức cho MLLM.
55. AutoPR: Hãy tự động hóa việc thăng tiến học thuật của bạn!
56. R-Horizon: Mô hình suy luận lớn của bạn có thể đi xa đến đâu về chiều rộng và chiều sâu?
57. Webscale-RL: Đường ống dữ liệu tự động để mở rộng dữ liệu RL đến cấp độ tiền huấn luyện.
58. SpaceVista: Suy luận không gian trực quan mọi quy mô từ mm đến km.
59. StreamingVLM: Hiểu biết thời gian thực cho các luồng video vô hạn.
60. Đừng lãng phí sai lầm: Tận dụng các nhóm RL tiêu cực thông qua việc điều chỉnh lại độ tin cậy.
61. ARES: Suy luận thích ứng đa phương thức thông qua định hình entropy cấp mã thông báo nhận biết độ khó.
62. KORMo: Mô hình suy luận mở tiếng Hàn cho mọi người.
63. DISCO: Đa dạng hóa sự cô đặc mẫu để đánh giá mô hình hiệu quả.
64. Cầu nối suy luận với học tập: Làm sáng tỏ ảo ảnh bằng cách sử dụng độ phức tạp ngoài tổng quát hóa phân phối.
65. Biến đổi Gaussian lũy tiến với Anis.
Nguồn tin: Dev.to Machine Learning — Tác giả: Paperium. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.