medium-shot-woman-holding-lion-illustration 1.png

온라인 강의 플랫폼 A社

멀티 유저 온라인 강의 플랫폼 음성품질 고도화를 위한 AI 솔루션

세계적인 팬더믹 등의 영향으로 기업의 원격회의, 학교의 온라인 화상수업, 화상면접, 비대면 상담 등 많은 분야에서 영상회의의 필요성이 급증하는 추세입니다. 이러한 원격기반 화상 솔루션의 활용에 있어 사용자들이 가장 큰 불편을 느끼는 부분은 음향 품질로서 배경 잡음이나 에코, 하울링 등에 의한 음향품질 저하가 세션 참여자들의 집중력을 흐트러뜨리고 스트레스의 요인으로 작용하고 있습니다.

이에 따라 온라인 화상수업 서비스를 제공하고 있는 A社는 딥러닝 신경망기술을 활용하여 다양한 회의 환경(장소, 플랫폼)에서 하나의 단말로 여러 명이 참여하는 동시 다수 접속 영상회의에서 발생하는 에코/잔향/하울링/정상/비정상 배경 잡음 등 음성품질 저하요인을 제거하는 AI 기반의 음성품질 고도화 기술개발을 의뢰하였습니다.

 

개발기간 7개월 | 투입인력 전문가 13명

일반 단말 음향.png

일반 단말 음향의 범용 음성품질 고도화 알고리즘

공유 단말 음향.png

공유 단말 음향의 음성품질 기반 음성품질 고도화 알고리즘

고품질 단말 음향.png

고성능 단말용 음성품질 고도화 알고리즘

​기술적 과제

음성품질 저하 요인별 AI 기반

고도화 알고리즘 처리 속도

음성 품질 저하 요인 (주변잡음, 어쿠스틱 에코, 하울링 등)별 고도화 알고리즘 지연 시간을 오디오 분석 1프레임 기준으로 적용하여 측정하고, 마이크로소프트 주관의 AEC (Acoustic Echo Cancellation)및 DNS (Deep Noise Suppression) Challenge의 실시간 트랙에서 요구하는 40ms 지연 시간 성능을 구현합니다.

1

주관적 음질 평가 결과 점수

4.0 이상 획득

마이크로 소프트 Deep Noise Suppression Challenge – INTERSPEECH 2020의 1위 점수 3.52 보다높은 점수로 설정하여 세계 최고 수준의 음질향상 기술 구현합니다.

2

​시험용 데이터 생성

20개 이상의 오픈 마이크 환경에 대한 시험용 데이터를 생성합니다. 한 명이 발언하고 나머지 마이크에서는 잡음이 들어오는 상태의 소리를 합성, 잡음은 다양한 유형과 세기를 고려한 분포로 구성(예. 평균적인 클린 스피치와 합성하여 0~25 균등분포로 합성되는 순수잡음 세기)하고 20,30,40개 등 오픈 마이크 환경 단계를 다양화하여 데이터 생성합니다.

3

로드맵

음향 DB 구축 및 에코/잔향 데이터 생성기 개발

RNN 기반 화자 음성특징 벡터 생성 모델링

음성 스펙트로그램 필터모델링

클러스터링

에코/잔향/하울링 잡음제거 통합 모듈 개발

검증시험 및 적용

​주요 기능

다자 영상회의시 입력 음향에서 잡음 억제

1

다자 영상회의시 여러 사용자가 하나의 스피커폰으로 참여하는 마이크의 입력 음향에서 잡음 억제

2

​고성능 스마트폰으로 다자 영상회의시 마이크 입력 음향의 잡음을 단말에서 억제

3

결과

40

음성품질 저하 요인별 AI 기반

고도화 알고리즘 처리 시간 (ms)

40

음성품질 고도화

주관적 음질 평가 결과 점수

홈페이지 philo-s 이미지.png

엘렉시의 AI를 확인해보세요

​Philo-S(음성 인식 · 품질 고도화 솔루션) 솔루션이 궁금하신가요?