서울대학교 공과대학

창의설계축전 공모작

다중 음성 통합

참가 부문

창작활동부문
학과

건설환경공학부
팀명

공명
신청자 이름

황윤서

다중음성통합은 기존 음성 인식 플랫폼이 단일 기기 기반 녹음만을 처리하는 한계를 극복하고, 다중 채널 환경에서 화자 분리와 음질 개선을 동시에 달성하기 위해 수행되었다. 우선 합성 음원을 제작한 뒤 다양한 잡음, 잔향, 지연 요소를 추가하여 실제 환경과 유사한 다채널 데이터를 구축하였다. 이후 중앙값 스무딩과 상호상관 계산을 통해 채널 간 시간적 오프셋을 정렬하였으며, 오픈소스 음성 처리 프레임워크인 ESPnet-2를 활용하여 화자 분리 및 음성 통합을 수행하였다. 핵심 기술은 빔포밍(Beamforming)으로, 사람의 청각이 양쪽 귀에서 들어오는 위상과 진폭 차이를 이용해 음질을 향상시키는 원리를 모방한다. 본 시스템은 멀티채널 녹음에서도 유사한 방식으로 음질을 강화할 수 있음을 보여주었다. 또한 인공 신경망 기반 사전 학습 모델을 결합하여 잡음·잔향·다중 화자 혼합 등 다양한 녹음 조건에 대응할 수 있도록 설계하였다. 연구 결과, 제안한 방식은 다중 화자 환경에서의 음질 저하와 화자 구분의 어려움을 완화하는 데 효과적이었으며, 회의 기록이나 원격 강의 등 실제 응용 분야에서 활용 가능성이 높음을 확인하였다.

담당부서학생행정실

전화번호880-2277

loaction

창의설계축전 공모작