데이터셋 구축에서 GAN의 중요성

스페이스X와 테슬라의 CEO앨런 머스크는 2016년 9월27일 멕시코 과달라하라에서 열린 국제 우주 대회(IAC)[i]에서 “2018년까지 화성에 첫 탐사선을 보내고 2024년에 첫 우주식민지를 건설하겠다”고 했다. 영화 속 아이언맨의 인공지능 비서 자비스는 ‘로버트 다우니 주니어’의 손짓과 음성에 따라 일상생활 뿐만 아니라 로봇 슈트의 설계, 제작, 조립, 구동에 이르는 복잡한 임무를 수행한다. 세계 과학자들의 노력과 상상력으로 우리는 멀지 않은 미래에 기술이 가져온 풍요를 누릴 수 있을 것을 보인다.

2015년 6월, 구글 포토는 출시 직후 미국에 사는 흑인 남성이 흑인 친구와 찍은 사진을 ‘gorillas’라고 분류한 사실이 공개되며 ‘인종차별’ 논란으로 이어졌다. 곧바로 수정을 약속했지만, 결국 문제의 키워드와 분류를 삭제하는 방식으로 처리한 사실이 미국의 정보기술 전문지 <와이어드> 통해 2018년 1월 밝혀졌다. 그리고, 2021년 4월, 필자는 “오늘 날씨 알려줘” 외에는 제대로 동작하지 않는 AI 스피커와 짧은 대화를 나누고 사람이 운전하는 ‘비자율주행차’에 탑승하여 잠실 테스트웍스 본사로 출근했다. 여전히 사람들의 인공지능에 대한 기대와 실제 현실은 생각 보다 갭이 크다[ii]. AI모델 개발이 생업인 한 사람으로서 면구할 따름이다.

**[그림 1] 기술에 대한 기대와 현실 수준을 확인할 수 있는 가트너 기술 사이클**

그렇다면 매년 세계적인 석학들과 글로벌 IT기업 CEO들의 혁신적인 발표에도 불구하고 왜 우리의 생활은 그다지 변한 것이 없는가. 인공지능이 이끄는 ‘4차산업혁명’이 성공하려면 인공지능 학습의 원천이 되는 데이터가 중요하다. 아직 혁신의 수혜를 입지 못한 산업에서는 ‘우리도 인공지능 내놔’라며 개발자들을 재촉하지만, 개발자는 ‘데이터 부터 주세요’로 응수한다. 양질의 데이터, 필자는 이 문제를 해결할 한 가지 방안으로 GAN(Generative adversarial network)[iii]기술을 조명해 보고자 한다.

GAN을 처음 제안한 Ian goodfellow는 GAN을 경찰과 위조지폐범 사이의 게임으로 비유했다. GAN은 경찰을 속일 수 있는 위조지폐 생성을 목표로 학습을 반복하고, 나중에는 경찰이 진짜와 가짜를 구분할 수 없는 수준의 데이터를 합성해낸다. 이 기술은 인공지능 학습용 데이터에 대한 두 가지 중요한 역할을 한다.

첫째, 데이터의 양적 질적 고도화를 통한 희소 데이터 문제 해결

인공지능 학습용 데이터 셋을 구축하기 위해서는 1) 데이터 수집 2) 데이터 가공 과정을 거쳐야 한다. 이 중 한 과정이라도 완벽하지 않다면 기대하는 인공지능 모델 학습은 어렵다.

1) 수집이 어려운 경우의 예

자율주행 인공지능 개선을 위해 눈/비/황사/사고 등 특수 상황에 대한 데이터가 필요한 경우
군사 기밀 지역의 감시 체계를 위하여 보안지역 감시 영상 데이터가 필요한 경우
성병 진단 인공지능을 위하여 신체 주요 부위에 대한 데이터 수집이 필요한 경우
암 진단용 인공지능 학습에 필요한 암세포 데이터 획득을 위해 암환자를 만들어 낼 수는 없음
사고 견적 산출 인공지능 학습을 위해 필요한 파손 차량 데이터 획득을 위해 차량을 파손하기는 어려움

2) 가공이 어려운 경우의 예

의료, 법률 데이터 가공 시 전문적인 지식이 없으면 가공이 어려운 경우
외국어 발음 평가를 위해서 원어민을 섭외하여 가공해야 하는 경우
사람 눈으로는 확인할 수 없는 센서 데이터 값에 대하여 가공해야 하는 경우
평가자의 주관에 따라 판단 정도가 다를 수 있는 경우 (ex, 인물 표정, 스타일 – 댄디/시크)
작업자가 가공 중 혐오감을 느낄수 있는 경우 (ex, 음란물, 폭력적 장면)

GAN을 활용하면 소량으로 수집 및 가공된 데이터 셋을 증강(Augmentation)하여 학습용 데이터 셋을 구축 할 수 있다. Tel Aviv (이스라엘)에서 진행된 연구[iv]에서는 간 병변(낭종,전이,혈관종) 진단 인공지능 모델 학습을 위하여 병원 및 의료기관과 밀접히 협력하여 6년 동안 간 병변 데이터를 수집하였고, 총 182장의 이미지를 얻었다. 182장, 이 겸손한 수량의 데이터만으로 인공지능 학습을 수행할 경우 편향(Bias), 과적합(Overfitting) 문제에 빠질 뿐만 아니라, 다양한 새로운 입력 데이터에 대한 강인한(Robust) 성능을 발휘하기 어렵다. 따라서 그들은 GAN을 활용하여 각 증상(낭종, 전이, 혈관종)의 특징을 보유한 새로운 수 만개의 데이터를 합성(Synthesis)하여 인공지능 모델 학습을 수행하였고, 성능 향상 결과(Sensitivity)를 얻었다. (증강 없음 : 57%, 단순 증강 : 78.6%, GAN 증강 : 85.7%)

단순 증강은 이미지 데이터 translation, rotation, flip, scale 처리를 말함

[그림 2] Tel Aviv에서 발표한 합성 데이터 기반 진단용 인공지능 연구 결과

둘째, 데이터의 개인정보 보호를 통한 데이터 활용성 문제 해결

데이터 수집, 가공은 쉽지만 활용하기 어려운 데이터의 문제를 해결할 수 있다. 2020년 7월 14일 대한민국 정부는 ‘한국판 뉴딜 종합 계획’[v]을 발표했다. 이 한국판 뉴딜의 10대 대표 과제 중 하나에 ‘데이터 댐’이 있다. 데이터 댐은 광범위한 데이터를 ‘댐’에 가둬두고 필요한 곳에 사용할 수 있도록 하는 것이다. 이 때 댐의 ‘수로’ 역할을 하는 것은 ‘비식별화’이다. 지금 이 순간에도 곳곳에 설치된 CCTV, 차량용 카메라 등으로 부터 수집되는 데이터는 그 규모를 헤아릴 수 없을 정도이다. 개인 정보를 포함하는 대규모 데이터를 산학연(기업, 학교, 연구소)에서 활용하여 R&D에 제약 없이 온전히 활용하려면 데이터 댐의 비정형(얼굴, 목소리 등), 정형(이름, 주소, 주민등록번호 등) 데이터에 대한 익명처리가 요구된다.

다만, 전통적인 개인정보 제거에 초점을 둔 방식(Blur, 모자이크 등)으로는 AI 연구(개인 검출/식별, 이상행동/상황인식, 감정인식 등)에 활용이 불가능하다. 따라서 사람의 눈과 시스템으로는 데이터의 개인식별 정보를 인식할 수 없도록 복원 불가형으로 익명화 하되 AI 학습과 시험에는 성능 저하를 최소화하여 활용할 수 있는 기술이 필요하다.

최근 얼굴 합성을 통한 비식별 처리 기술이 대두되고 있다. DeepFake와 같은 GAN 기반 이미지 합성 기술[vi]은 가상의 얼굴을 원본 사진이나 영상에 겹치는 방식으로 개인정보를 비식별 처리한다. 기존 방법(Blur, Mosaic 등)과 달리 원본 인물의 표정(Expression), 자세(Pose) 등 R&D 연구에 유의미 할 수 있는 주요 정보를 포함하되 새로운 인물로 대체하여 합성한다. 뮌헨공과 대학교 연구진은 CVPR 2020에서 CIAGAN(GAN 기반 Conditional Identity Anonymization)[vii] 기술을 선보였다. 새로운 Identity의 인물을 생성한 후 합성하는 방식일 뿐만 아니라 주요 개인정보(나이, 성별, 신체 특징 등)에 대하여 선별적으로 조정 가능하도록 고안된 비식별 처리를 통하여 데이터의 활용성을 향상시켰다.

**[그림 3] 뮌헨공과대학교의 CIAGAN 모델 (CVPR2020)**

필자는 Testworks R&D 연구소에서 데이터 셋 확보에 어려움을 호소하는 민간, 산학 및 공공기관의 교수진, 연구진, CEO를 위하여 합성데이터 생성을 통한 인공지능 학습을 돕고 있다. 산업/연구 분야의 Voice of Customers를 듣고 합성 데이터 생성에 필요한 1) 최소 실제 데이터 수량 2) 데이터 합성에 필요한 기간 3) 합성 데이터 4) 합성된 데이터의 정량적 분석(FID, PSNR, SSIM 등)을 제공하고 있다.

최근에는 팀원들과 아래 기술에 대해 고민하고 토론하며 연구하고 있다.

Domain Adaptation : 특수 상황(눈/비/야간/성에/먼지/습기 등)에 대한 데이터 합성 기술
Super resolution : 데이터의 해상도를 증가하여 데이터 품질을 개선하는 기술
Semantic Synthesis : 원하는 특정 객체를 추가로 합성하는 방법
Image Inpainting : 이미지내의 특정 영역을 제거하고 이질감이 없도록 합성하는 기술

**[그림 4] Testworks에서 연구 중인 Domain Adaptation 실험 결과**

**[그림 5] Testworks에서 연구 중인 Super Resolution 실험 결과**

일각에서는 GAN이 촉발해온 진짜와 가짜의 경계를 허무는 여러 부작용들에 대하여 우려 스러운 목소리를 내고있다. 또 다른 측에서는 흑묘백묘(黑猫白猫)를 떠올리며 가짜 데이터가 만들어주는 장점을 이야기한다. 부디 GAN이 적절히 활용되어 데이터 생태계 활성화 뿐만 아니라 인공지능 학습용 데이터셋 구축을 위한 촉매 역할을 수행하기를 기대해본다.

[i]국제우주대회(IAC, International Astronautical Congress) : https://www.iafastro.org/events/iac/

[ii] Gartner Top 10 Strategic Technology Trends for 2020: https://www.gartner.com/smarterwithgartner/gartner-top-10-strategic-technology-trends-for-2020/

[iii] Goodfellow, Ian J., et al. “Generative adversarial networks.” arXiv preprint arXiv:1406.2661 (2014)

[iv] Frid-Adar, Maayan, et al. “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification.” Neurocomputing 321 (2018): 321-331.

[v] http://www.knewdeal.go.kr/

[vi] Rossler, Andreas, et al. “Faceforensics++: Learning to detect manipulated facial images.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.

[vii] Maximov, Maxim, Ismail Elezi, and Laura Leal-Taixé. “Ciagan: Conditional identity anonymization generative adversarial networks.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.

김형복

책임 연구원, AI 연구 개발팀

중국 정부 초정 장학생으로 Harbin Institute of Technology, Computer Science and Technology, PhD Course 수석 입학

인공지능 연구 중 Covid-19으로 귀국하여 현재 테스트웍스 AI 연구 개발팀에서 근무 중이다. 기술을 통한 사회적 기여에 관심이 많다.

테스트웍스 뉴스레터 구독하기

TESTWORKS

블로그

데이터셋 구축에서 GAN의 중요성