말하는대로 받아적는 인공지능 문자통역 서비스 – 소보로

소통의 장벽을 낮추는 문자 통역 전문 기업

‘소보로(소리를 보는 통로)’는 기술로 소통의 장벽을 낮추기 위해 설립된 소셜벤처입니다.

소보로는 음성언어를 문자화 하는 인공지능 기술(STT, Speech To Text)을 활용하여 청각장애인들이 수화통역사 없이 PC나 태블릿 등의 전자기기를 통해 실시간 자동문자통역 서비스를 이용하여 의사소통을 할 수 있도록 도와줍니다. 장애인들을 위한 기술은 곧 비장애인들에게도 유용하다는 철학을 바탕으로 개발된 소보로의 소프트웨어는 현재까지 학교, 직장, 병원 은행, 공공시설 등 약 700곳에 보급되어 청각장애인의 교육 격차 해소 및 소통을 지원하고 있습니다.

2020년에는 비장애인 고객의 니즈를 파악하여 비대면 온라인 스크립팅 서비스 ‘typeX’를 출시했으며, 출시 후 18개월 간 총 9,000건 이상의 음성/영상 파일의 유입을 이끌어 내며 빠른 대응시간과 가격 경쟁력으로 높은 서비스 만족도를 유지하고 있습니다.

음성인식 엔진 고도화를 위한 잡음 제거 기술

소리를보는통로는 실시간 자막 솔루션 ‘소보로’와 비대면 온라인 스크립팅 서비스 ‘typeX’에 공통적으로 사용되는 음성인식 엔진의 체감 인식률을 획기적으로 높이기 위해 잡음 제거(Noise Suppression)를 위한 딥러닝 모델을 집중적으로 연구 개발하고 있습니다.

잡음 데이터 셋 구축을 위한 테스트웍스의 맞춤형 데이터 구축 서비스

소리를보는통로가 집중 연구 중인 문자 통역 과정에서 음성 인식의 정확도를 높이기 위한 잡음을 걸러주는 기술을 완성하기 위해서는 다양한 환경에서 정확도를 높여주기 위한 학습 데이터가 필요했습니다.

하지만, 학습 데이터를 직접 구축하기에는 수집과 가공의 난도가 높아 데이터 구축에 필요한 솔루션 개발 또는 구매 비용 발생과 더불어 전문 인력을 확보하기가 어려웠습니다.

또한, 차별화한 서비스의 기술 개발을 고도화하기 위해서는 품질 높은 데이터를 확보하는 것이 중요했습니다.

이에 소리를보는통로는 데이터바우처 지원사업에 참여해 공급기업으로 데이터 구축 경험뿐 아니라 자사의 기술 개발 방향을 이해하며 맞춤형 솔루션을 제공할 수 있는 전문기업인 테스트웍스를 선택했습니다.

한국어 음성 데이터 및 잡음 데이터 구축

테스트웍스는 소리를보는통로와 협업을 통해 구축할 데이터를 세밀하게 정의하고 가이드를 수립하여 잡음이 없는 한국어 음성 데이터와 잡음 데이터를 각각 수집했으며, 수집된 잡음 데이터를 가공한 후 한국어 음성 데이터와 합성하여 데이터를 구축했습니다.

먼저, 한국어 음성 데이터 수집 생성을 위해 어려운 발음, 된소리 등 특성이 강한 문장으로 구성된 5초 분량의 발화문 500개를 작성한 후, 외부 스튜디오와 전문 녹음 장비를 통해 잡음이 없는 녹음 환경을 만들었습니다. 이와 함께 크라우드-소싱 기반의 aiworks 플랫폼을 활용해 성별과 연령대가 다양한 80명의 음성 수집 참여자를 모집해 40,000건의 음성 파일을 녹음하여 수집했습니다.

잡음 데이터의 경우, 대분류와 소분류로 분류되는 11개의 잡음 시나리오를 선정하고, 지하철역-사람들 말소리, 카페-커피머신 소리 등 다양한 시나리오에 맞춰 10시간 분량의 노이즈 데이터를 테스트웍스 전문 인력들이 직접 수집 생성했습니다.

수집한 잡음 데이터는 blackolive 음성 가공 도구와 전문 인력을 통해 유의미한 잡음 구간에 대해 타임 스탬프 어노테이션 가공을 카테고리 당 10건씩 총 110건을 진행했습니다.

이후 음성 합성 도구를 사용해 동일한 잡음을 4가지 데시벨을 적용하여 각기 다른 한국어 음성-텍스트 데이터에 합성하는 후처리 가공을 수행했습니다.

소보로에서 만들고자 하는 딥러닝 모델 학습에 적합한 한국어 음성 데이터 셋이 존재하지 않았습니다. 이에 테스트웍스와 논의, 긴밀한 협업을 진행했고, 데이터 관련 솔루션 활용과 전문 인력의 데이터 가공 작업으로 품질 좋은 데이터 셋을 확보할 수 있었습니다. 이번 협업을 통해 확보한 데이터 셋으로 청각장애인 의사소통 보조 솔루션을 고도화할 계획입니다.

(주)소리를보는통로 윤지현 대표

모두를 위한 사회혁신 서비스를 향해

테스트웍스는 소리를보는통로와 데이터바우처 지원사업을 통해 최종적으로 40,000건의 데이터 셋을 구축했습니다.

소리를보는통로는 구축된 데이터 셋을 활용해 잡음 제거 딥러닝 모델을 학습시켜 주요 서비스인 실시간 자막 솔루션과 비대면 온라인 스크립팅 서비스를 고도화하여 모두를 위한 혁신적인 서비스 제공할 것입니다.

테스트웍스 또한 기술 기반의 사회혁신을 추구하는 소셜벤처로서 소리를보는통로와 함께 지속적으로 협력 및 성장하며, 사회적 가치를 만들어 가기를 기대합니다.