데이터 시대의 초상, 비식별화 기술의 발전

김형복

사람으로 부터 얻을 수 있는 가장 가치 있는 것은 무엇일까? 필자는 인공지능 연구자가 되기전 다양한 단기 아르바이트를 했었다. 그 중 기억에 남는 것이 엑스트라 알바이다. 영화 작전(2009)에 참여할 기회가 있었고, 지나가는 행인, 건물 앞에서 담배피는 남자, 도서관에서 공부하는 학생 역할을 맡았었다. 이 때 당연히 필자의 얼굴이 영화에 활용될 수 있음을 인지하고 있었고, 꽤 괜찮은 급여를 지급 받았다. 

하지만, 만약 내가 인지 하지 못한 상태에서 얼굴이 찍히고 그것이 내가 모르게 활용된다면 어떨까? 실제로 우리가 사는 세상은 안전을 목적으로 곳곳에 CCTV가 설치되어 있으며, 이로 인해 의도치 않게 카메라에 담길 기회가 점점 많아지고 있다.

국내 CCTV 설치 현황 및 운영 현황[i]에 따르면 CCTV 설치 대수는 꾸준히 증가하여 공공기관의 CCTV 설치 대수만 백만 대가 넘게 설치 되어있다. 뿐만 아니라, 차량용 블랙박스, 상업용 보안 카메라 등 공공목적이 아닌 카메라까지 포함하면 전국팔도에 더 이상 사각지대는 없다. 수집된 영상들 대부분은 특이사항이 없을 경우 30일 이내에 자동 폐기된다. 개인의 초상권 보호 관점에서 이는 매우 온당해 보인다.

[그림 1] 공공기관 CCTV 설치 및 증가대수

반면, AI 기술을 필두로 하는 산학연에서는 생각이 다르다. 인공지능 학습에 활용할 수 있는 방대한 데이터들이 계륵으로 전락하여 증발하는 것에 아쉬움이 있다. 박용만 대한상공회의소 회장은 2019년 11월 대한상공회의소에서 기자간담회를 열어 “‘데이터산업은 미래 산업의 원유’라고 하는데, 지금은 원유 채굴을 막아놓은 상황”이라며 “이 상태에서 어떻게 우리가 4차 산업혁명을 이야기할 수 있을지, 미래 산업을 이야기할 수 있을지 아득하다”고 호소했다. 같은 달 여민수 카카오 공동대표도 간담회에서 “의도적으로 데이터를 유출한 기업이 있으면 영업이익 이상의 범칙금을 물게 하면 된다”며 “위험하니 안 된다고 묶어놓으면 아무것도 할 수 없다”고 토로했다.[ii]

2020년 1월 9일, 데이터 3법이 통과됐다. 4차 산업혁명 시대의 핵심 자원인 데이터 거래와 개인정보 유출 우려를 차단한 ‘가명정보’의 활용이 가능해졌다. 가명정보는 이름, 주민등록번호 등 민감 정보를 비식별처리해 특정 개인을 알아볼 수 없게 한 정보를 의미한다.[iii] 수집 데이터의 분석 및 활용 범위가 넓어지고 있기 때문에 통계, 과학적 연구, 공익적 기록 보전 목적으로 활용한 경우 정보 주체의 동의 없이 가명정보가 활용 될 것으로 보인다. 이에 따라 국내외에서는 방대하게 수집된 데이터에 대하여 개인식별 정보를 가명처리하는 방법들이 활발히 연구되고 있다.

[그림 2] 개인정보, 가명정보, 익명정보 예시

Tao Li 는 컴퓨터 비전 딥러닝 분야 최고 수준의 학회 중 하나인 CVPR(컴퓨터 비전과 패턴 인식 컨퍼런스)에서 비식별처리 방법인 AnonymousNet[iv] 을 발표했다. 기존 Blurring(흐려짐), Pixelation(모자이크) 외에 사실적인 대안을 합성하여 이미지를 비식별화하고 개인 정보 보호 여부가 측정 가능한 방법을 제안했다. 얼굴 특징 속성에 대하여 선별적으로 변환이 가능하고 각 속성이 제대로 비식별 처리가 되었는지 측정 가능하도록 설계했다. 얼굴 특징 속성은 나이, 성별, 피부색, 머리결 타입, 표정, 수염 유무 등 실제 얼굴 특징 뿐만 아니라 안경, 귀걸이 등 악세서리 착용 유무에 대해서 변환 가능하도록 고안됬다.

[그림 3] AnonymousNet의 난독화 방법 및 비교 영상

[그림 4] CelebA 데이터셋의 얼굴 특징 속성과 분포

Facebook AI Research는 컴퓨터 과학 분야 최고 수준의 학회 중 하나인 ICCV(국제 컴퓨터 비전 학회)에서 비디오 영상에 적용한 비식별 처리 연구 Live Face De-Identification in Video[v]를 발표했다. 다양한 포즈(Pose), 표현(Expression), 조명 조건(Illumination conditions), 폐색(Occlusions)에서 성능 저하가 최소화 할 수 있도록 설계되었다. High Level 특징(눈, 코, 입, 눈썹)은 변경되고, 포즈, 표현, 입술모양, 조명, 피부 톤은 보존된다. 또한 연속된 프레임에서 깜빡임(Flickering), 시각적 인공(Visual artifact), 왜곡(Distortion)을 보정한 비식별 처리 알고리즘을 연구했다.

[그림 5] Facebook AI Research의 비식별처리 실험 결과
원본영상(위), 비식별처리 후(아래)

테스트웍스는 수집된 영상에서 개인정보를 비식별화 하는 업무를 수행하고 있다. 개인의 얼굴 뿐만 아니라 차량 번호판 등에 대하여 비식별처리 서비스를 제공한다. Blur, 모자이크를 통한 개인정보 제거 서비스를 제공할 뿐만 아니라 가상의 인물로 얼굴을 변환하여 비식별처리하는 방식도 진행 중이다. [vi]

[그림 6] Testworks의 얼굴 비식별 처리 결과 이미지 예시

감정인식, 이상행동 감지 등의 인공지능 학습 및 R&D 연구에 문제없이 데이터를 활용할 수 있도록 원본 영상 내 인물의 자세, 표정, 표현 정보를 유지한 상태로 개인식별 정보만을 비식별 처리 가능하도록 연구 중이다. 테스트웍스는 차량 번호판의 비식별 처리 또한 기본적인 방법 외에 활용목적에 따라 선택가능한 비식별 처리 서비스를 제공할 예정이다.

[그림 7] Testworks의 차량 비식별 처리 결과 이미지 예시 [ix]

필자는 이전 기고 데이터셋 구축에서 GAN의 중요성에서 비식별처리는 데이터 댐 사업의 ‘수로(水路)’ 역할을 하고 있음을 언급한 바 있다. 댐의 물이 원활히 흐르도록 하기 위해 얼굴, 차량 번호판 외에도 홍채, 지문, 걸음걸이, 목소리, 주소, 이름, 주민등록번호 등 개인정보를 포함하는 다양한 정보에 대한 비식별화 연구가 필요할 것이다. 데이터 생태계가 활성화 되어 AI와 데이터를 활용하는 기업들이 데이터에 대한 갈증을 해소하고 글로벌 경쟁력을 확보할 수 있기를 기대해본다.


[i] 공공기관 CCTV현황, https://www.index.go.kr/potal/main/EachDtlPageDetail.do?idx_cd=2855

[ii] ‘가명정보’ 내 동의 없이 사용된다. 데이버3법 통과 의미는?, https://news.mt.co.kr/mtview.php?no=2020010921561656429

[iii] 개인정보 비식별 조치 가이드라인, 한국인터넷진흥원(KISA) 참고

[iv] Li, Tao, and Lei Lin. “Anonymousnet: Natural face de-identification with measurable privacy.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2019.

[v] Gafni, Oran, Lior Wolf, and Yaniv Taigman. “Live face de-identification in video.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.

[vi] AI Hub 한국인 안면 이미지 AI 데이터, https://aihub.or.kr/aidata/73

※ AI Hub에 공개된 ‘한국인 안면 이미지 AI 데이터’를 활용하여 진행된 테스트웍스 연구

[vii] 국토교통부 그림 활용 https://www.molit.go.kr/carplate/main.jsp


김형복

책임 연구원AI 모델 개발팀

중국 정부 초정 장학생으로 Harbin Institute of Technology, Computer Science and Technology, PhD Course 수석 입학

인공지능 연구 중 Covid-19으로 귀국하여 현재 테스트웍스 AI 개발팀에서 근무 중이다. 기술을 통한 사회적 기여에 관심이 많다.