음성 기반 3D 아바타를 빠르고 정교하게 움직이는 플루언트
플루언트는 웹캠 및 음성 인식 기반 버츄얼 휴먼 모션캡쳐와 감정 반영 AI 솔루션 개발 전문 기업입니다. 특히, 실시간 안면 생성 기술, 감정 분류 기술, 안면 움직임 커스터마이징 기술, 및 음성 신호로 언어에 대한 제약이 없는 차별화된 기술을 보유하고 있습니다.
예를 들어, 플루언트의 AI 기술은 카메라 없이 텍스트나 음성 정보를 AI가 분석해 실시간으로 입모양과 안면 표정을 구현합니다. 카메라 없이 음성만으로 입 모양과 감정을 싱크에 맞게 보여주는 기술력이 강점으로, AI가 음성 시그널을 학습해 가장 적합한 감정을 보여줍니다. 이를 통해 3D 아바타를 더욱 정교하게 제작할 수 있습니다.
사람의 음성과 표정에 대한 감정 분류 데이터 셋
음성에 대한 감정을 분류하고 감정에 적합한 표정을 표현하는 AI 기술을 고도화하기 위해서는 사람의 감정이 담긴 고품질의 감정 분류 데이터 셋 확보가 필수적입니다.
하지만, 이러한 데이터 구축은 자체적으로 진행하기에는 수집이 까다롭고 세밀한 가공이 필요하여 비용 및 리소스가 많이 소요되는 작업입니다.
이를 해결하기 위해 플루언트는 데이터바우처 지원사업에 참여하여 데이터 공급기업으로 데이터 수집, 가공, 검수까지 고객 맞춤형 원스톱 서비스가 가능한 테스트웍스를 선택하여 협업했습니다.
테스트웍스는 지난 2019년부터 현재까지 데이터바우처 공급기업으로서 다양한 데이터 구축 경험을 바탕으로 데이터 설계부터 수집 및 가공 노하우를 통해 고객 맞춤형 컨설팅, 데이터 수집 환경 설계, 직접 촬영, 데이터 가공, 검수, 자동화 도구 활용 등 기술 기반의 전문적인 데이터 수집, 가공 및 검증 서비스를 제공하고 있습니다.
협업을 통한 데이터 기획 및 구축 과정 설계
테스트웍스는 플루언트와 협업을 통해 요구사항에 맞는 데이터 셋을 정의하고 전체 프로젝트 과정을 단계별로 설계했습니다.
이를 바탕으로 자체 촬영 스튜디오를 활용하여 데이터 수집 환경을 구축하고, 크라우드-소싱 기반 데이터 수집 가공 플랫폼 aiworks를 통해 전문 연기자를 섭외하여, 8가지 감정을 기반으로 하는 인당 200개 스크립트에 대한 영상 및 음성 데이터를 구축했습니다.
고품질의 데이터를 구축하기 위해 데이터 수집 과정에서 독립적인 카메라 2대를 활용하여 60fps의 고화질 영상을 촬영했으며, 촬영 시 생성된 모든 데이터를 정확하게 동기화하기 위해 Sign Card를 사용한 촬영과 프레임마다 얼굴의 특징을 알려주는 Blendshape Key를 활용한 Value 변화 추적 및 Mapping을 통해 1/60초 이내로 오차를 줄이는 미세 조정과정을 빠르고 정확하게 수행했습니다.
수집한 데이터에 대한 검수 이후 모든 데이터의 타임라인을 동기화하고, 자사의 데이터 라벨링 도구인 blackolive를 활용해 음성 발화의 시작과 끝 부분에 대한 디지털화 라벨링을 수행하고, 3단계 검수를 통해 데이터 품질을 확보했습니다.
특히, 음성과 영상 데이터를 변환하는 단계에서 자동화를 통해 데이터 처리 시간을 단축시켰습니다.
가상 현실에서 제대로 구현되는 활용성 높고 실시간으로 움직이는 버츄얼 휴먼 생성 기술을 고도화시키는데 필수적인 데이터 확보에 어려움이 있었는데, 테스트웍스와 협업으로 편향성 없는 고품질의 데이터 셋을 확보할 수 있었습니다. 앞으로도 지속적인 협업을 기대합니다.
플루언트 전예찬 대표
국내를 넘어 해외 시장을 목표로 실시간 아바타 생성 기술 고도화
테스트웍스는 플루언트와 협의를 통해 플루언트의 요구사항에 맞는 감정 연기 영상 및 음성 데이터 2,800 세트를 구축하여 제공했습니다.
플루언트는 이번 구축된 데이터 셋으로 주요 솔루션의 고도화를 통해 AI 비서, AI 은행원, AI 아나운서 등 가상 인간을 활용한 차별성 있는 서비스를 제공할 계획입니다. 또한 산업 별 실시간 아바타 생성 기술 적용을 통해 국내 시장을 넘어 해외 시장에도 진출할 예정입니다.