서울대학교 공과대학

공대뉴스광장

서울대 공대 전기정보공학부 컴퓨터비전 연구팀, 끝없이 영상 생성하는 AI 비디오 생성 기술 개발

작성자

대외협력실
등록일

2024.11.11
조회수

3,714

서울대 공대 전기정보공학부 컴퓨터비전 연구팀, 끝없이 영상 생성하는 AI 비디오 생성 기술 개발
- 짧은 클립만 생성하는 기존 모델 한계 극복해 영화, 광고 등 활용 가능성 높여
- 인공지능 분야 최고 권위 국제학술대회 NeurIPS 2024의 발표 논문 채택

(첨부1) 연구진 사진
▲ (좌측부터) 김지환 연구원(협동과정 인공지능전공 석사과정), 강준오 연구원(전기정보공학부 박사과정), 한보형 교수(전기정보공학부, 협동과정 인공지능전공)

서울대학교 공과대학은 전기정보공학부 한보형 교수가 지도하는 컴퓨터비전 연구팀(CVLAB)이 별도의 학습 없이 무한한 길이의 비디오를 생성할 수 있는 혁신적인 인공지능(AI) 기술 ‘피포 디퓨전(이하 FIFO-Diffusion)’을 개발했다고 밝혔다.

기존 영상 생성 모델의 한계를 극복한 FIFO-Diffusion은 디퓨전 모델에 기반한 비디오 생성 기술의 새로운 방법론을 제시했다는 평가를 받고 있다. 이 기술을 제안한 논문 ‘FIFO-Diffusion: Generating Infinite Videos from Text without Training’은 지난 10월에 인공지능 및 기계학습 분야의 최고 권위 국제학술대회 ‘NeurIPS 2024(Neural Information Processing Systems, 신경정보처리시스템학회)’의 발표 논문으로 채택되어 학계와 산업계의 주목을 받은 바 있다. NeurIPS는 인공지능 및 딥러닝 분야의 최신 연구 성과와 혁신적 기술이 발표되는 자리로 매년 엄격한 심사를 통과한 우수한 논문이 발표 논문으로 선정된다.

기존의 비디오 생성 모델은 영상 길이가 길어질수록 메모리 소모가 급격히 증가해 대규모 하드웨어 자원을 필요로 했다. 또한 프레임 간 일관성 유지에 어려움이 있어 부자연스러운 영상을 생성하는 한계도 있었다. 이에 연구팀은 메모리 사용량을 일정하게 유지하면서도 각 프레임이 자연스럽게 연결되는 영상을 생성하는 FIFO-Diffusion을 개발했다. 이 획기적인 기술은 사전에 짧은 클립을 통해 훈련된 디퓨전 모델이 추가 학습 없이 텍스트 조건에 맞춰 무한한 길이의 비디오를 생성하도록 설계됐기 때문에 고화질의 비디오를 장시간 생성할 수 있다.

특히 이번 연구에서는 비디오 품질 개선을 위해 세 가지의 혁신적 기법이 활용돼 관심을 끌었다. 먼저 각기 다른 노이즈 레벨의 비디오 프레임을 일련의 큐(queue) 형태로 동시에 처리하는 ‘대각선 디노이징(diagonal denoising)’ 기법을 통해 디퓨전 모델이 품질 저하 없이 무한히 긴 비디오를 생성하는 것을 가능케 했다. 이어서 프레임을 여러 블록으로 나눠 병렬 처리하는 ‘잠재 파티셔닝(latent partitioning)’ 기법으로 프레임 간 노이즈 레벨 차이를 줄였다. 그리고 새로 생성될 프레임들이 이전에 생성된 더 깨끗한 프레임을 참조하도록 하는 ‘앞서보기 디노이징(lookhead denoising)’ 기술을 도입해 후반 프레임의 손실을 감소시켜 더욱 선명한 비디오 출력을 구현할 수 있었다. 마지막으로 연구진은 비디오 생성 속도와 품질을 한결 높인 이 기법들을 다중 GPU에 병렬로 적용해 효율성을 극대화함으로써 무한히 긴 영상을 생성하는 비디오의 실현 가능성을 입증했다.

(첨부2) 모식도_대각선 디노이징
▲ 대각선 디노이징(diagonal denoising) 기법의 모식도 : 서로 다른 노이즈 레벨의 프레임들이 사전 학습된 디퓨전 모델에 입력되어 순차적으로 처리된다.

(첨부3) 모식도_잠재 파티셔닝&앞서보기 디노이징
▲ (a) 잠재 파티셔닝(latent partitioning)과 (b) 앞서보기 디노이징(lookahead denoising) 기법의 모식도 : 잠재 파티셔닝은 프레임을 여러 블록으로 나눠서 병렬 처리하고, 앞서보기 디노이징은 각 블록에서 노이즈가 더 적은 프레임을 참조하여 더욱 선명한 비디오를 생성한다.

FIFO-Diffusion 기술은 향후 영화, 광고, 게임, 교육 등 다양한 콘텐츠 산업에서 널리 활용될 것으로 기대된다. 기존의 텍스트 기반 비디오 생성 모델들은 3초 이내의 짧은 클립만 생성할 수 있어 실제 콘텐츠 제작에 이용되기 어려웠지만, 이러한 제약을 뛰어넘은 FIFO-Diffusion 기술이 상용화되면 길이 제한 없이 더 자연스러운 비디오를 생성할 수 있기 때문이다. 또한 학습을 위한 대규모 하드웨어 자원이나 방대한 데이터를 필요로 하지 않는 강점 덕분에 FIFO-Diffusion이 AI에 기반한 영상 콘텐츠 제작을 한층 활성화할 전망이다.

연구를 지도한 한보형 교수는 “기존 비디오 생성 모델의 한계를 깬 FIFO-Diffusion은 별도의 학습 없이 무한한 길이의 비디오를 생성한다는 새로운 개념을 수립했다는 점에서 의미가 남다르다”며 “향후 이 기술을 바탕으로 다양한 후속 연구를 이어나갈 계획”이라고 밝혔다. 논문의 주 저자인 김지환 연구원은 “이번 개발로 비디오 생성 기술이 영상 콘텐츠 분야에서 폭넓게 사용될 수 있는 토대가 마련됐다”고 연구의 의미를 설명했다.

한편 연구 논문의 공동 제1저자인 김지환, 강준오 연구원은 현재 서울대 컴퓨터비전 연구실에서 비디오 생성 분야의 후속 연구를 심도 깊게 수행하고 있다.

[참고자료]
FIFO-Diffusion: Generating Infinite Videos from Text without Training, NeurIPS 2024

https://jjihwan.github.io/projects/FIFO-Diffusion

https://arxiv.org/pdf/2405.11473

[문의]
서울대학교 컴퓨터비전 연구실 김지환 연구원 / kjh26720@snu.ac.kr
서울대학교 컴퓨터비전 연구실 추상혁 연구원 / sanghyeok.chu@snu.ac.kr

담당부서대외협력실

전화번호880-9148

loaction

공대뉴스광장