[연재 2] 테스트웍스 데이터 품질 검증 전문 도구 ADQ

변호영, AI Model & Data QA 선임 연구원

ADQ 소개

지난 블로그에서 설명 드린 바와 같이 국내의 인공지능 데이터 품질 검증은 초기 단계이며 표준화된 방법이 존재하지 않습니다. 인공지능 데이터 셋 구축 업체들이 자체 개발한 다양한 라벨링 도구가 있지만 대부분의 도구는 데이터 라벨링과 라벨링 자동화 그리고 라벨러의 작업 관리에 초점이 맞춰져 있습니다.

따라서, 데이터 검증만을 위한 절차 및 작업 관리, 검증 후 필요한 통계 자료를 지원하기 위한 보다 가볍고 편리한 도구가 필요한 시점이 되었습니다.

이러한 이유로 다년간 인공지능 데이터 품질 검증 노하우를 보유하고 있는 테스트웍스는 지속적으로 품질 높은 데이터를 인공지능 학습에 제공하기 위해 필요한 제3자 검증 도구인 ADQ 베타 버전을 출시하게 되었습니다.

ADQ는 베타 버전이지만 인공지능 데이터 품질 검증을 수행해야 하는 기업과 기관들의 현업에서의 어려움을 반영하여 개발이 되었습니다. ADQ를 활용하면 다음과 같은 데이터 검증과 관련된 업무 생산성을 확보할 수 있습니다.




ADQ 베타 버전 출시

이번 베타 버전에서는 4가지 주요 기능과 함께 세분화된 8가지 기능을 제공합니다.

4가지 주요 기능

1) 품질 검증 프로세스에 따라서 학습 데이터의 품질 검증을 진행할 수 있는 도구입니다.

신뢰 수준과 표본 오차를 기준으로 신뢰할 수 있는 검증 개수를 설정한 후 검증을 위한 샘플링 진행,  효율적 검증 작업의 진행을 위한 작업 분할, 검증 작업자 할당으로 이루어지는 일련의 프로세스를 검증 도구를 사용하여 순조롭게 진행할 수 있습니다.

2) 프로젝트 별로 검증 팀 구성이 가능하며 원활한 검증 작업을 진행할 수 있습니다.

검증 작업자들의 작업 진행 상황과 오류에 대한 부분을 관리자(&검수자)가 체크하여 검증 작업에 대한 질은 높이고, 기본적으로 학습 데이터 셋 구축에 도움이 될 수 있도록 정보를 제공합니다.

3) 검증 작업 시 편리한 기능들을 제공합니다.

오류 객체들에 대한 화면 표시, 객체 오류 종류 표시, 오류가 있는 다중 객체를 선택하여 한 번에 오류를 체크하는 기능 등 사용자 입장에서 검증 작업을 최대한 편리하게 진행할 수 있습니다.

4) 품질 검증 결과를 보고서 출력 형태로 제공합니다.

품질 검증 작업에 대한 결과를 보고서 형태의 파일로 다운로드 하여 볼 수 있습니다. 데이터 관련 증빙 자료가 필요하거나, 제3자 품질 검증 수행 시 활용 가능합니다.


8가지 세분화 기능

ADQ 세분화 기능 설명

이제 ADQ 베타 버전에서 제공되는 기능에 대해서 좀 더 자세히 알아보도록 하겠습니다.

1. 프로젝트 현황 대시보드

검증 프로젝트에 대한 프로젝트 진행률, 검증 데이터 도메인 분포, 검사자 현황, 어노테이션 타입 분포를 그래픽컬하게 처리하여 전반적인 현황을 쉽게 파악할 수 있는 화면을 제공합니다.

2. 라벨링 결과 파일에 대한 데이터 포맷 변환

여러 가지 데이터 포맷을 가지고 있는 결과 파일들을 ADQ로 로드하기 위한 데이터 형 변환이 가능합니다. 현재 CVAT xml, COCO json, Pascal VOC xml 형태를 지원하고 있으며, 추후 다른 형태도 지원할 예정입니다. 연재 1에서 언급한 대로 권장되는 표준 가이드가 부족하여 업계에서 사용되는 모든 결과 파일 형태의 지원보다는, 현재 툴에서 지원되지 않은 포맷 변환에 대해서 맞춤형 포맷 변환 서비스를 제공할 예정입니다.

3. 데이터 샘플링, 분할 작업 및 업로드

일반적으로 품질 검증은 전체 구축 데이터 셋에서 샘플링을 하여 진행합니다. 만일, 샘플링을 하여 한 개의 작업으로 진행하게 된다면 작업의 특성상 한 명이 진행하게 되고, 샘플량이 많게 되면 작업 효율은 당연하게 떨어지게 됩니다. ADQ는 이러한 관리의 효율성을 높이기 위해서 프로젝트를 여러 개의 작업으로 분할하고, 작업자들이 동시에 진행할 수 있도록 합니다. 분할된 작업들이 서버로 업로드되면 실제 작업을 시작할 수 있습니다.

4. 동시 진행되는 멀티 검증 프로젝트 관리 및 작업 관리

여러 개의 프로젝트를 동시에 검증 진행이 가능하며, 작업자별 검증 Task 할당 현황, 검증 진행 현황을 모니터링할 수 있습니다.

5. 검증 작업 화면 내 오류 설정 및 오류 목록 설정

실질적인 검증 작업을 하는 화면으로 각 객체에 대해서 오류 설정을 할 수 있습니다. 또한, 객체 종류별 작업한 오류 객체들을 손쉽게 파악할 수 있습니다.

작업 전체의 오류 개수 및 각 오류 객체의 종류도 파악할 수 있습니다. 오류 객체가 있는 페이지로 바로 이동도 가능합니다.

6. 라벨링 데이터 분석

품질 검증 결과뿐만 아니라 라벨 분포 및 객체 크기 분포에 대한 분석 결과도 제공합니다.

7. 검증 결과(의미 정확성) 확인 및 리포팅

의미 정확성 검증 프로젝트에 대한 진행 상황 및 검증 결과 확인이 가능하며, 검증 데이터 셋에 대한 최종 검증 결과 리포트 출력 기능도 제공합니다.

8. 관리자/검수자/작업자별 사용 권한

검증 작업의 효율성을 위해서 ADQ는 세 가지의 권한에 따라 메뉴 및 기능의 사용이 제한되어 있습니다.

1) 작업자 – 품질 검증 작업
2) 검수자 – 품질 검증 작업 검수
3) 관리자 – 사용자 계정 생성, 프로젝트 생성 및 관리, 검증 결과 확인

현재 베타 버전에서는 작업자 권한만 제공합니다.

품질 검증 전문 도구로서 특장점

마지막으로 데이터 전문 품질 검증 툴 ADQ의 특장점을 요약하면 아래와 같습니다.


ADQ를 활용하여 구축된 데이터 셋의 오류 여부를 검증하고, 이에 대한 오류 분석 정보를 제공하여, 인공지능 모델의 고품질 학습 데이터 셋 구축에 필요한 시간 및 비용 절감에 기여할 것으로 기대합니다. 좋은 품질 검증 전문 도구는 결국 최종 인공지능 서비스의 품질을 좌우하는 데이터 품질 검증에 대한 저변 확대를 이끌게 될 것입니다.

테스트웍스는 인공지능 학습 데이터 셋 구축, 품질 검증을 전문적으로 진행하면서 내부적으로 직접 개발한 툴을 사용해 품질 검증 효율성과 생산성을 높이며, 사용성 측면에서 추가 기능 들을 지속적으로 고도화시키고 있습니다.

내부적으로 직접 사용하는 검증된 도구로서, 외부에도 서비스로 제공해 데이터 품질 향상에 도움이 되고자 합니다. 다음 연재에서는 해외 인공지능 데이터 검증 현황과 ADQ 사용에 따른 실질적인 효율성 향상에 대한 내용을 소개하겠습니다.

인공지능 데이터 품질 검증 문의하기