서울대학교 공과대학

창의설계축전 공모작

SuperVision

참가 부문

창작활동부문
학과

전기정보공학부
팀명

SuperVision
신청자 이름

김산

SuperVision은 시작장애인을 위한 AI 보행보조앱입니다.
SuperVision의 핵심 기능들은 최신 AI 모델과 공공 데이터를 유기적으로 결합하여 구현하였습니다. 보행 중 마주치는 다양한 객체를 빠르고 정확하게 탐지하기 위해 최신 객체 인식 모델인 YOLO11을 활용했으며, 모델 경량화 및 최적화 과정을 거쳐 200MB 이하의 저용량으로 구현했습니다. 이를 통해 네트워크 연결 없이도 50ms(20FPS) 수준의 빠른 속도로 객체 인식을 수행하여 실시간성을 확보했습니다. 또한, 단순 객체 인식을 넘어 사용자 주변의 복합적인 상황에 대한 맥락적 이해를 제공하기 위해 GPT-5 Vision API를 활용했습니다. 이 멀티모달 기술은 이미지 속 객체들의 관계, 표지판의 텍스트 등을 종합적으로 분석하여 자연어 설명을 생성함으로써 사용자가 더 깊이 있는 정보를 바탕으로 안전하게 판단하도록 지원합니다. 마지막으로, 독립적인 대중교통 이용을 돕기 위해 서울버스정보 Open API와 광학 문자 인식(OCR) 기술을 결합하여 버스 도착 정보 확인부터 정확한 탑승까지의 전 과정을 비시각적인 방식으로 완벽하게 지원합니다.
본 과제의 결과물인 SuperVision 앱은 사용자를 중심으로 실시간 보행 보조, 주변 상황 분석, 대중교통 이용 지원의 세 가지 모듈이 유기적으로 동작하는 구조로 설계되었습니다. 사용자가 보행을 시작하면, 30FPS로 입력되는 카메라 영상을 온디바이스 YOLO 모델이 실시간으로 분석하여 보행자 신호등, 계단, 장애물 등을 탐지하고 "전방에 계단이 있습니다"와 같은 명확한 음성 안내와 진동 피드백을 즉시 제공합니다. 모든 과정이 오프라인으로 처리되어 데이터 요금이나 네트워크 지연 걱정 없이 핵심 안전 기능을 이용할 수 있습니다. 또한, 사용자가 궁금한 지점을 향해 화면을 터치하면 해당 장면이 GPT-5 Vision API로 전송되어 평균 3~5초 내에 상점 간판, 메뉴판 등을 인식하거나 눈앞의 풍경을 상세히 설명하는 음성 안내를 제공합니다. 대중교통 이용 시에는 카메라로 버스정류장 표지판이나 버스 전면을 비추면, OCR과 Open API를 통해 실시간 도착 정보를 안내받고 "탑승하실 146번 버스가 도착했습니다"와 같이 음성으로 알려주어 혼잡한 상황에서도 정확한 탑승을 돕습니다.

담당부서학생행정실

전화번호880-2277

loaction

창의설계축전 공모작