medium-shot-woman-holding-lion-illustration 1.png

온라인 강의 플랫폼 A社

멀티 유저 온라인 강의 플랫폼 음성품질 고도화를 위한 AI 솔루션

세계적인 팬더믹 등의 영향으로 기업의 원격회의, 학교의 온라인 화상수업, 화상면접, 비대면 상담 등 많은 분야에서 영상회의의 필요성이 급증하는 추세입니다. 이러한 원격기반 화상 솔루션의 활용에 있어 사용자들이 가장 큰 불편을 느끼는 부분은 음향 품질로서 배경 잡음이나 에코, 하울링 등에 의한 음향품질 저하가 세션 참여자들의 집중력을 흐트러뜨리고 스트레스의 요인으로 작용하고 있습니다.

이에 따라 온라인 화상수업 서비스를 제공하고 있는 A社는 딥러닝 신경망기술을 활용하여 다양한 회의 환경(장소, 플랫폼)에서 하나의 단말로 여러 명이 참여하는 동시 다수 접속 영상회의에서 발생하는 에코/잔향/하울링/정상/비정상 배경 잡음 등 음성품질 저하요인을 제거하는 AI 기반의 음성품질 고도화 기술개발을 의뢰하였습니다.

개발기간 7개월 | 투입인력 전문가 13명

일반 단말 음향의 범용 음성품질 고도화 알고리즘

공유 단말 음향의 음성품질 기반 음성품질 고도화 알고리즘

고성능 단말용 음성품질 고도화 알고리즘

기술적 과제

음성품질 저하 요인별 AI 기반

고도화 알고리즘 처리 속도

음성 품질 저하 요인 (주변잡음, 어쿠스틱 에코, 하울링 등)별 고도화 알고리즘 지연 시간을 오디오 분석 1프레임 기준으로 적용하여 측정하고, 마이크로소프트 주관의 AEC (Acoustic Echo Cancellation)및 DNS (Deep Noise Suppression) Challenge의 실시간 트랙에서 요구하는 40ms 지연 시간 성능을 구현합니다.

주관적 음질 평가 결과 점수

4.0 이상 획득

마이크로 소프트 Deep Noise Suppression Challenge – INTERSPEECH 2020의 1위 점수 3.52 보다높은 점수로 설정하여 세계 최고 수준의 음질향상 기술 구현합니다.

시험용 데이터 생성

20개 이상의 오픈 마이크 환경에 대한 시험용 데이터를 생성합니다. 한 명이 발언하고 나머지 마이크에서는 잡음이 들어오는 상태의 소리를 합성, 잡음은 다양한 유형과 세기를 고려한 분포로 구성(예. 평균적인 클린 스피치와 합성하여 0~25 균등분포로 합성되는 순수잡음 세기)하고 20,30,40개 등 오픈 마이크 환경 단계를 다양화하여 데이터 생성합니다.