이창신 l Tech Evangelist l Testworks
Testworks의 연구 개발 리더들이 모여 기술을 통한 사회적 가치 창출에 관심이있는 개발자와 혁신가를 위한 특별한 AI & Data 개발자 커뮤니티 Meetup 이벤트를 주최했습니다. 첫 번째 이벤트는 2021 년 6 월 17 일에 열렸으며, 온라인으로 진행된 다른 모임과 달리 Testworks 사무실의 열린 휴게 공간에서 진행되었습니다.
첫 번째 모임의 주제는 비전 키포인트와 자연어 처리를 통한 수어 번역 및 인식 기술로, 3 개 기업에서 3 명의 연구원이 AI를 사용하여 청각 장애인(이하 “농인”)의 의사 소통을 돕는 연구 결과를 발표했습니다.
농인들의 주 의사소통 방법인 수어에는 여섯 가지 놀라운 점이 있습니다.
1. 수어는 자연적으로 진화함. 예상과 달리 수어는 언어학자가 발명한 것이 아니라 다른 자연어처럼 자연스럽게 진화했습니다.
2. 자연어로 직접 매핑 할 수 없음. 한국 수어는 한국어와 완전히 다릅니다. 마찬가지로 미국 수어는 영어 단어로 쉽게 대체 될 수 없습니다. 외국어를 배우는 것처럼 각 수어를 배워야합니다.
3. 손 만으로 표현하는 언어가 아님. 손만이 표현의 매체가 아닙니다. 얼굴 표정 및 신체 자세와 같은 NMS( 비수지)도 마찬가지로 중요합니다.
4. 많은 방언과 속어. 놀랍게도 자연어와 같은 수어에도 방언, 속어, 개인적 특이성이 많이 있습니다.
5. 표준 표기언어가 없음. 대부분의 자연어와 달리 수어는 쉽게 쓸 수 없습니다. 즉, 수어에 대한 표준 표기 언어가 없습니다. 비디오에서 서명 동작을 캡처해야하기 때문에 수어 학습이 어렵고 AI 시스템 교육이 더 어려워집니다.
6. 높은 문맹률. 농인-청인 간 의사소통 시 입술이나 단어를 읽을 수 있으므로 수어 통역사가 필요하지 않을 수 있다고 생각할 수 있습니다. 불행히도 장애로 인해 교육 기회가 제한되어 모국어를 읽거나 쓰지 못하는 사람들이 많이 있습니다. 또한 수어를 이해하지 못하는 농인들도 있습니다.
국내에는 약 37만 명의 농인이 있으며, 글을 완벽하게 이해하는 사람은 12%에 불과합니다. 이렇게 높은 문맹률로 인해 AI를 통한 수어 인식 연구는 사회적으로 큰 가치를 지님과 동시에 높은 목표와 많은 기술적 과제들이 있습니다. 이번 모임에서 진행된 3개의 세션 발표는 각각 유망하며 지속적인 연구 결과를 보여주었습니다. 각각의 세션은 다음과 같이 요약해 볼 수 있습니다.
첫번째 세션
다중 카메라를 통한 키포인트 추출과 3D 데이터 Augmentation
윤석민 ㅣ Data Management Team Manager ㅣ Testworks
수어 데이터를 수집하려면 특별한 설정이 필요합니다. 일반 카메라는 느린 셔터 속도로 인해 정상적인 손 움직임을 정확하게 캡처 할 수 없으며 매우 자주 폐색(occlusion)이 발생할 수 있습니다. Testworks는 좋은 학습 데이터를 수집하기 위해 5 대의 고속 카메라를 사용하여 키 포인트를 캡처해서 3D 이미지를 만들었고, 그것을 기반으로 어떤 각도나 위치로 투영이 가능하게 되었습니다. 물론 설정을 제대로 하기 위해서 초기 보정(calibration)에 많은 노력이 필요했지만, openpose 라이브러리를 통한 자동 주석으로 프로젝트를 성공적으로 끝낼 수 있었습니다.
두번째 세션
인공지능 기반 수어 인식 기술
박한무 ㅣ 선임연구원 ㅣ KETI
KETI는 자체 한국어 수어 인식 엔진을 개발했습니다. 수집 프로세스는 세 대의 ZED 카메라를 사용했지만 Testworks와 마찬가지로 포즈 추정 및 폐색(occlusion)과 같은 유사한 기술적 문제를 극복해야 했습니다. 시범 서비스 프로젝트는 좋은 결과를 보여 김포 국제 공항에서 수어 통역 서비스 전용 키오스크에 사용되고 있습니다. KETI의 현재 접근 방식은 문장 전체를 통으로 번역하는 형태여서 확장에 어려움이 있습니다. 다음 버전은 형태소 별로 분류해서 다이내믹하게 문장을 구성할 수 있게 하는 데에 초점을 두고 있습니다.
세번째 세션
인공지능 기술을 활용한 아바타 수어
매튜 웰터 이노키언 ㅣ AI 개발자 ㅣ EQ4ALL
Testworks와 KETI는 수어의 수집 및 인식 측면에 중점을 두었지만 EQ4ALL은 아바타를 통한 수어 생성에 노력하고 있습니다. 딥 러닝, 특히 Transformer 기반 NLP 모델의 최신 발전을 활용하여 EQ4ALL은 텍스트에서 수어 생성을 신경 기계 번역 문제로 규정했습니다. Attention 기반 인코더 및 디코더 모델을 사용하여 모델은 아바타를 통해 실시간 수어를 생성 할 수 있습니다. 전통적인 심볼릭한 방식들은(템플렛트나 문법기반의 방식) 여전히 백업으로 사용되고 있지만 Attention 기반의 방식이 주로 신경망 기계 번역에 쓰이고 있습니다.
다른 AI 프로젝트와 마찬가지로 수어 학습용 데이터 부족은 KETI와 EQ4ALL이 현재 직면하고 있는 가장 큰 문제입니다. 하지만, Testworks가 제공할 수 있는 양질의 데이터를 통한 협업이 논의가 되고 있습니다.
앞으로 더 많은 Meetup이 예정되어 있습니다. 제 자신을 예로 들어 보면 개발자들은 자신의 작업이 다른 사람에게 영향을 미치는지 궁금한 마음을 품고 있습니다. 오늘의 모임은 아주 작은 시작이었지만, 지속적인 소통을 통해 같은 생각을 가진 개발자들에게 좋은 만남으로 지속될 수 있을 것이라 믿습니다.