본문 바로가기
3D-GS

[논문 리뷰] MVControl (arXiv 2024) : Image+Text to 3D

by xoft 2024. 5. 22.

Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting, Zhiqi Li, arXiv2024

 

 

Overview

 

TextCondition Image(edge, depth, normal, scribble)를 입력을 가짐

1) ControlNetMVDream으로 Multi-view 이미지 생성
2) LGM으로 coarse3D Gaussian생성
3) 2D diffusion lossSuGaR optimizationfine 3D Gaussian생성
4) Refinement을 통해 fineMesh생성

 

 

 

Contribution

- Controllable fine grained text-to-multi-view image
- Multi-stage efficient 3D generation pipeline
- Gaussian-Mesh hybrid representation
- High-fidelity multi-view images and 3D assets

 

 

 

1) ControlnetMVDream으로 Multi view 이미지 생성

- Condition Image(edge, depth, normal, scribble)로 이미지를 편집하는 ControlNet

- Camera Posemulti view를 생성하는 MVDream

 

 

 

2) LGM으로 coarse3D Gaussian생성

- LGM : Large Multiview Gaussian Model for high-resolution 3d content creation

- Camera posePlücker ray embedding를 획득. Image와 함께 U-Net 학습 → 학습된 모델 사용

 

 

 

3) 2D diffusion LossSuGaR optimization으로 fine3D Gaussian생성

1. 2D diffusion모델을 기반으로 Loss를 계산.

   - 2D diffusion모델은 DeepFloyd-IF를 사용

   - Text ycondition h2D SDS3D SDS를 계산.

   - SDS Loss : 3DGS생성 이미지gDiffusion생성 이미지 확률분포가 유사해지도록, 3DGS parameter 업데이트

2. 3DGSdepthalpha이미지를 랜더링.

3. $\mathcal{L}_{TV}^{d} , \mathcal{L}_{TV}^{n}$ : depth를 미분하여 normal을 획득. depthnormalregularization.

4. $\mathcal{L}_{mask}$ : Alpha이미지로 mask를 만들고 중간 과정?에서 생성되는 maskMSE를 계산

5. 계산된 Loss들로 Gaussian Splattingfine하게 update

 

 

 

4) Refinement를 통해 fineMesh생성

1. SuGaRcoarseMesh획득

    SuGaR에서 초기 opacity0.9로만 셋팅

2. mesh가 고정된 상태에서 아래 LossTextureoptimization

    VSDSDS같은 역할. Texture 생성 성능이 좋음.
    기호는 SuGaRfine하게 만들어진 mesh에 해당하는 depth, normal, mask

 

 

 

 

실험 결과

link에서 확인

 

 

 

 

Closing..

이번 리뷰는 개인적으로 여러 논문들을 보기 위해, 짧은 시간에 논문 파악하고 정리하는 연습을 목적으로 했습니다. 

댓글