최욱, 부대표 (CPO) l 이창신, AI TestOps 연구 소장 l 변호영, AI Model & Data QA 선임 연구원
데이터 품질의 중요성
제4차 산업의 핵심인 인공지능을 학습시키기 위해서 많은 양의 데이터가 필요하다는 것은 인공지능 연구자라면 누구나 동의하는 사실입니다. 그렇지만 무조건 많은 양의 데이터로 성능이 좋은 인공지능을 만들 수 있는 것은 아닙니다. 최근 이루다의 예에서 볼 수 있듯이 편향된 데이터로 학습된 인공지능은 성능 문제를 넘어서 윤리적 사회적 문제까지 일으킬 수 있습니다. 그 만큼 신뢰할 수 있는 인공지능 서비스 개발을 위해서는 학습용 데이터의 품질 문제가 매우 중요합니다.
지금까지 인공지능 개발이 같은 양의 데이터를 가지고 어떻게 하면 모델을 최적화할 수 있는지 모델 중심의 개발이었다면, 이제는 데이터의 품질에 초점을 두는 ‘데이터 중심’의 인공지능 개발이 대세로 자리 잡고 있습니다. 데이터의 양보다 질이 중요하다는 것은 많은 실험으로 증명이 되었습니다. 특히, 데이터 구축에 드는 막대한 비용을 생각하면 학습에 필요한 최소한의 품질 좋은 데이터를 확보하는 것이 성공적인 인공지능 데이터 구축의 이상일 것입니다.
이렇듯 우리가 원하는 인공지능 서비스 시대로 가기 위해서는 가장 먼저 품질 좋은 인공지능 학습 데이터 인프라가 잘 갖추어져야 하는 만큼 이에 대한 블로그 연재를 통해 데이터 품질의 중요성을 소개하고 이를 위한 품질 도구, 요소 기술 등 필요 분야에 대해 소개 드리고자 합니다.
데이터 품질 관리의 어려움
인공지능 분야의 우수한 서비스 성능은 양질의 데이터에 의해서 보장됩니다. 해당 서비스 배포 이후에도 지속적인 성능 유지를 위해서는 AI 모델의 지속적인 학습이 필요합니다. 계속되는 환경 변화 및 추후 발견되는 데이터 편향성으로 인공지능 기반 서비스의 정확성 문제에 대한 성능 개선이 필요하기 때문입니다. 이를 고려하면 학습 데이터의 엄격한 품질 검증은 최초 구축 시점만이 아닌 지속적인 관리가 필요한 사항입니다. 최초 구축을 시작으로 데이터의 지속적인 수집 그리고 이에 대한 품질 검증에는 많은 노력과 비용이 수반되며, 이는 학습되어야 하는 인공지능 모델의 목적성에 의존적입니다. 인공지능 모델의 목적성에 부합하는 데이터 품질을 확보하는데 어려운 문제는 데이터의 품질을 어떻게 정의하고 측정할 것인가입니다. 이러한 데이터 품질에 관한 정의를 위해 많은 시도가 있는데, 대표적인 예가 한국지능정보사회진흥원(NIA)에서 발간한 인공지능 학습용 데이터 품질관리 가이드라인 (v1.0 2021. 2)입니다. NIA에서는 다음과 같은 품질 지표를 제시하고 각각의 지표에 구체적인 세부 지표와 품질 관리 지침을 제공하고 있습니다.
-준비성, 완전성, 그리고 유용성은 학습 데이터 셋 확보에 있어 구축 공정 시점에 해당하는 품질 지표입니다.
-적합성, 정확성은 데이터 라벨링 시점에 해당하는 품질 지표입니다.
-유효성은 학습모델 측면에서 제공되는 시점에서의 품질 지표입니다.
인공지능 모델 학습에 있어 데이터가 AI로 해결하려는 목적에 부합하도록 다양한 데이터가 충분하게 신뢰성을 갖고 수집이 되었는지 적합성 정도와 데이터 라벨링의 정확성 정도를 나타내는 품질 지표는 매우 중요합니다. 특히, 데이터 라벨링 단계의 정확성 품질 지표는 의미 정확성과 구문 정확성 두 가지 세부 지표로 나누어지는데, 의미 정확성은 어노테이션과 Ground Truth (GT)와의 비교를 통해 정확도(Accuracy), 정밀도(Precision), 그리고 재현율을 (recall) 계산하여 확인하며, 구문 정확성은 어노테이션 데이터 구조를 준수하는지, 속성 값이 입력 유효 범위에 존재하는지, 정의된 데이터 형식을 준수하는지를 확인하게 됩니다.
데이터 품질 검증의 현주소
대부분의 데이터 셋 구축 기관들은 프로젝트 진행 시 자체 개발한 간단한 라벨링 툴을 사용하거나 오픈소스 또는 상용 툴을 사용해서 구축 프로젝트를 진행하고 있습니다. 물론, 라벨링 후에 자체 인력을 통해 검수를 하여 오류 수정을 통한 데이터 셋의 품질을 높이기도 하지만, 실질적인 오류에 대한 분석은 이루어지지 않고 있는 것으로 보여집니다. 사용하는 툴 또한 라벨링 전문 툴로서 품질 검증보다는 구축에 목적을 두고 있기 때문에 데이터 셋의 품질을 높이기 위한 검증 툴로 사용하기에는 효과적이지 않을 것입니다. 적절한 데이터 품질 검증 전문 툴이라면 적어도 아래와 같은 어려움을 해소해 주어야 합니다.
- 각 구축 업체가 자체적으로 정의한 포맷을 사용하고 있기 때문에 너무 다양한 포맷이 존재함
- 다양한 학습 데이터 셋에 대한 품질 검증 진행 시 여러 가지 포맷의 데이터 셋을 검증하기 위해 각각에 대해 별도 변환 방법을 확보해야 함
- 많은 양의 데이터 품질 검증 후 검증 결과서 작성 작업을 수작업으로 진행해야 함
- 검증 시 오류가 많은 작업에서 일일이 객체 하나씩을 오류로 등록해야 하는 번거로움
- 한 이미지에 매우 많은 객체가 라벨링 된 경우 시간과 노력이 너무 많이 소요됨
- 품질 검증을 위해 폴더에 저장된 대상 데이터 셋에 대한 적정한 양의 샘플링 작업이 번거로움
- 검증 작업 후 오류에 대한 정보를 따로 저장하는 기능이 제공되지 않아 오류 분석이 어려움
- 오류에 대한 분석이 이루어지지 않으면 똑같은 실수를 반복하게 됨
- 반복적인 실수를 통해 효율성과 생산성이 떨어짐
- 라벨링 검증 결과에 대해 클래스 또는 인스턴스 분표가 보이는 통계적 다양성, 수량의 균일성/비율에 대한 정보를 확인하기 어려움
데이터 품질 확보에 있어서 위와 같이 현재 당면한 어려움을 해결해 주는 적절한 도구가 아직 개발되어 상용화된 버전은 없는 것으로 보입니다. 현재는 구축 업체에서 사용하는 라벨링 툴들이 서로 상이하여 여러 구축 업체에서 제공되는 데이터 셋의 품질 확인을 위해서는 해당 구축 업체에서 사용된 툴을 일일이 다운을 받고 실행 후 검증 결과에 대해 건건이 품질 확인을 수작업으로 진행하여 많은 시간과 노력이 들어가는 것에 반해 그에 상응하는 품질을 확보하기에는 역부족입니다.
효과적인 품질 검증을 위한 첫 결실 “데이터 품질 검증 전문 도구”
국내 인공 지능 데이터 셋 구축 사업이 아직은 초기 단계로 한국지능정보사회진흥원(NIA)에서 발간한 데이터 라벨링 품질 지표를 정량적으로 측정할 수 있는 방법론이나 도구를 제공하는 업체가 그렇게 많지 않은 것이 현실입니다. 데이터 중심의 개발론이 최근에 관심 받기 시작했기에 이는 당연한 사실이지만 다양한 분야에서 많은 양의 데이터를 구축하고 검증해야 하는 기업의 입장에서는 아쉬운 점이 많았습니다.
이에 테스트웍스는 인공지능 데이터 구축 전문 기업으로서의 장점과 노하우를 살려 데이터 라벨링의 정확성 품질 지표에 먼저 초점을 맞추어 품질 검증 툴 개발을 시작하게 되었고, 2022년 2월 중순 경 첫 결실로 베타 버전을 출시할 예정입니다. 효과적인 품질 검증을 위해 필요한 요구 기능은 계속 정의해가고 있기 때문에, 첫 베타 버전은 의미적 정확성을 중점으로 커버가 되지만 곧 구문 정확성과 검증 자동화 기능을 탑재할 계획입니다.
테스트웍스는 데이터 구축 전 공정에서 품질을 최우선 순위로 고려하는 기업으로서 계속해서 데이터 품질 검증 도구에 대한 고민과 고도화를 진행할 예정입니다. 이러한 노력이 국내/외 학습 데이터 셋 구축 업체 및 품질 검증 업체에 많은 도움이 되기를 바라며, 해외 시장을 포함한 경쟁력 있는 품질 도구 확보를 위한 협력이 되기를 기대하고 있습니다. 테스트웍스에서 출시할 데이터 품질 검증 도구에 대한 자세한 기능 설명은 다음 연재에서 소개해 드리겠습니다.