Extend3D: Training-free 3D Scene Generation with Patchwise Extended Latent Refinement
참가 부문
연구발표부문
학과
컴퓨터공학부
팀명
윤승우
신청자 이름
윤승우
기존의 3D 생성 모델들은 단일 object 생성에는 강점을 가졌으나, 복잡한 3D scene을 표현하는 데에는 한계가 있었다. 이는 대부분의 모델이 object-centric dataset으로 학습되었기 때문에 scene의 구조를 충분히 학습하지 못했기 때문이다. Scene dataset을 구축하는 것에는 큰 비용과 시간이 요구되기에 scene-level 3D 생성에는 제약이 있다. 본 연구에서는 이러한 문제를 해결하기 위해 추가적인 학습 없이, 기존의 pretrained object-centric model을 활용해, 단일 이미지로부터 3D scene을 생성하는 Extend3D를 제안한다.
Extend3D는 pretrained model에서 정의된 latent의 크기보다 넓은 크기의 latent를 통해 넓으면서 디테일한 3D를 표현한다. 이를 위해 latent와 이미지를 patch로 쪼개 각각에 flow matching을 적용한다. 하지만 object-centric 모델은 scene의 각 조각을 잘 만들지 못하기에, depth estimation을 통해 얻은 point cloud로 scene의 structure를 초기화한다. Structure latent를 noising, denoising 하는 것을 여러 번 반복해 structure를 개선하고 patch 단위로 디테일을 생성해 결과를 얻을 수 있다.
Extend3D는 기존의 3D 생성 모델들과 비교했을 때 가장 입력 이미지에 충실하면서도 기하적으로 디테일한 결과를 생성할 수 있었다. 본 연구는 별도의 학습과 데이터셋 없이 object-centric model을 통해 3D scene을 생성할 수 있다는 점에서 의의를 지니며, 향후 더 발전되 3D 생성 모델과 결합했을 때 더 좋을 결과를 얻을 수 있을 것으로 기대된다.
담당부서학생행정실
전화번호880-2277