개요
현재 라이다 기반 3D 인공지능 기술은 2D 이미지 기반 인공지능 못지않은 성능을 보여주고 있다. 이러한 성과에 힘입어 라이다를 통해 수집하는 3D 데이터와 가공된 데이터 셋은 인공지능 개발자들이 많이 다뤄보고 싶어하는 데이터 셋 중 하나가 되었다. 하지만 라이다 데이터 셋은 다루기는 커녕 직접 보는 것조차 어려운 경우가 많다. 여전히 라이다 장비는 너무 비싸고, 라이다 데이터는 다루기 어려워서 데이터 셋을 직접 구축하는 것이 쉽지 않기 때문이다. 게다가 공개된 데이터 셋도 별로 없어서 오픈 데이터 셋을 활용하는 것 역시 쉽지 않다. 정부의 디지털 뉴딜 정책에 의해 여러 산업에서 인공지능 기술의 개발이 가속화되고 있는데, 정작 3D 인공지능의 핵심 데이터로 꼽히는 라이다 데이터 셋은 구하는 것조차 어려운 상황이다.
이러한 현실에서 테스트웍스는 3D 인공지능의 핵심 데이터인 라이다 데이터 셋의 구축 방안을 모색하고 있다. 필자는 이 글을 통해 테스트웍스의 3D 인공지능을 활용한 라이다 데이터 셋 가공 자동화 개발 과정 및 3D 인공지능에 대한 필자의 의견을 공유하고자 한다.
인공지능 데이터 셋 가공 자동화 과정
잘 훈련된 인공지능 모델을 활용해 데이터 셋의 가공 자동화를 수행하면 데이터 가공 업무의 효율을 높일 수 있다. 이를 ‘오토 라벨링’이라고도 부르는데, 실제로 데이터 셋을 구축하는데 있어서 해당 방법이 유용하게 쓰이고 있다. 초기에는 가공된 데이터 셋이 부족해서 자동화의 효과를 보기 어렵지만, 한번 고품질의 데이터 셋이 구축되면 가공 자동화의 성능이 크게 향상되고 가공 작업의 효율이 올라간다. 이렇게 잘 구축된 고품질의 데이터 셋을 중심으로 그 데이터셋 의 양을 빠르게 늘릴 수 있다. 즉, 각 데이터별로 그에 맞는 적절한 인공지능 모델을 활용하면 해당 데이터 셋의 구축이 원활해진다.
물론 데이터의 종류는 다양하고 각 산업마다 필요한 데이터 셋 및 인공지능이 다르다. 그래서 모든 데이터에 대해 적절한 인공지능 모델을 사용하여 자동화 모델을 개발하고 운영하려면 모델에 대한 많은 연구와 분석 및 개발이 필요하다. 이는 현재도 진행 중이며, 인공지능을 연구하는 연구원으로서 가지고 있는 큰 임무이기도 하다. 라이다 데이터 역시 인공지능의 연구와 함께 가공 도구 및 자동화가 필요한 시점이 되었다. 본 글을 통해 라이다에서 수집한 데이터의 가공 자동화 모델을 개발하는 과정을 보여주려고 한다.
가공 자동화를 위한 3D 인공지능의 훈련
3D 객체 검출 모델의 학습을 위한 데이터 셋의 가공은 라이다 데이터 내 Cuboid 가공으로 이루어진다. 아래의 [그림 3]에서 보는 것 같이 데이터에 객체가 존재하는 영역을 찾아서 Cuboid의 위치, 크기, 방향을 지정하여 가공을 수행한다. 이를 처음부터 일일이 가공할 경우 2D 이미지 내의 객체 가공보다 많은 시간이 소요된다.
이 문제를 해결하기 위해 Cuboid 가공 자동화 실험을 진행했고, 3D 객체 검출 모델의 개발을 수행하였다. 가공 자동화 모델을 개발하기 위해 우선 인공지능 모델을 선정하고, 인공지능을 훈련시킬 데이터 셋을 선정하였다.
인공지능 모델 선정
2017년에 공개된 VoxelNet을 시작으로 3D 객체 검출 모델의 성능이 눈에 띄게 향상 되었다. 이후 이미지 기반 2D 객체 검출 모델처럼 3D 객체 검출 모델 역시 어느 정도 구조가 정립되었고, 이로 인해 사용하기 편리하도록 개발된 오픈 소스들이 몇 가지 공개되었다. 2021년을 기준으로 OpenPCDet, SECOND가 가장 대중적으로 사용되고 있다. 이중 SECOND 코드를 사용하여 실험을 진행하였다.
데이터 셋 선정
라이다 데이터 셋은 2가지를 선정하였다. 하나는 주행 환경을 담은 자율주행 데이터 셋, 다른 하나는 실내 환경을 담은 실내 공간 라이다 데이터 셋이다.
과거 라이다 인공지능 연구 및 데이터 수집은 자율주행 분야를 대상으로만 진행되었다. 그렇다 보니 공개된 데이터 셋 역시 대부분 자율주행 데이터 셋을 찾아볼 수 있었다. 대표적으로 KITTI 데이터 셋, Nuscene 데이터 셋 등이 있으며, 자동차가 주행을 하며 만날 수 있는 이동 객체들(차량, 보행자, 오토바이, 자전거 등)을 위주로 가공이 되어있다. 자율주행 데이터 셋 가공 자동화 실험을 진행하기 위해 KITTI 데이터 셋을 선정하였다.
2021년에 마침 국내 AI 플랫폼인 AI Hub에서 실내 라이다 및 카메라 동기화 영상 데이터 셋이 공개되었다. 이는 라이다 센서를 보행자들이 다니는 실내 환경으로 가져와 데이터를 수집하고, 보행자를 포함한 이동 객체를 가공한 데이터 셋이다. 3D 인공지능의 응용 분야가 자율주행에만 한정된 문제를 인식하고 응용 분야의 확장성을 목적으로 구축된 듯하다. 전례를 찾아보기 힘든 생소한 데이터 셋임에도 불구하고 품질이 괜찮아서 해당 데이터셋을 사용해 실내 보행자 가공 자동화 실험을 진행하였다.
가공 자동화 실험 결과
자율주행 데이터 셋 실험
KITTI 데이터 셋을 학습한 가공 자동화 모델을 테스트해 보았다. 오랜 시간 연구된 자율주행 분야 답게 차량 객체를 상당히 잘 잡아낸다. 방향 지정도 매우 정확하다.
좀 더 실용적인 확장이 가능한지 확인하고 싶어 KITTI 데이터 셋이 아닌 타 제조사의 라이다 데이터에 대한 가공 자동화를 진행하였다. 라이다도 제조사와 장비 스펙에 따라 데이터 모양이 달라지기 때문에, 가공 자동화 성능이 저하되진 않을까 우려했다. 그럼에도 불구하고 매우 정확하게 객체의 위치를 찾아 가공된 것을 확인했다. 이 정도 면 자율주행 분야에서 수집한 데이터 셋의 가공 자동화는 수월할 것으로 예상된다.
실내 데이터 셋 실험
AI Hub에 공개된 실내 라이다 데이터 셋을 학습한 가공 자동화 모델을 테스트해 보았다. 자율주행 데이터 셋 못지않게 보행자의 위치를 상당히 잘 잡아낸다. 방향 지정은 조금 아쉽지만 이는 해당 분야에서 양질의 데이터 셋이 조금 더 많이 구축되면 자연스럽게 해결될 것이다.
회사에서 보유하고 있는 라이다 장비를 통해 회사 건물에서 데이터를 수집한 후 가공 자동화 모델을 실험해 보았다. 촬영 환경이 훈련한 데이터 셋과는 조금 달라서 그런지 보행자 이외에 불필요한 태깅이 많았지만 괜찮은 수준이다. 필요한 객체의 가공이 성공한 것만으로도 작업자의 가공 효율을 높일 수 있고, 해당 데이터셋을 정제한 후 모델을 지속적으로 학습시켜주면 자동화의 성능은 충분히 끌어올릴 수 있다.
실험 결과
라이다 데이터 셋의 가공 자동화 실험 결과는 생각보다 성공적이었다. 자율주행 환경과 실내 환경 모두 객체의 위치를 정확하게 잡아냈고, 품질 면에서도 상당히 높은 성능을 보여주었다. 불필요한 영역까지 객체로 인식해버리는 과태깅 현상은 앞으로 구축할 추가 데이터 셋의 학습을 통해 충분히 개선될 것으로 보인다.
라이다 데이터 셋은 품질 면에서도 상당히 긍정적이었다. 현재 공개된 라이다 데이터 셋의 장점은 수량이 부족한 대신 품질이 좋다는 것이다. 응용 분야마다 객체 선정 혹은 영역 설정 기준이 모호한 2D 이미지 데이터와 달리 라이다 데이터는 객체 선정 기준과 영역 설정 기준이 매우 명확하다. 그래서 데이터 가공 작업의 초기 진입 장벽은 조금 높을 수 있지만, 적응하면 매우 직관적이고 정확한 가공이 가능해진다. 아마 시간이 지나면 고품질의 데이터 셋 구축이 다른 데이터 셋보다도 원활해질 것으로 보인다.
정리
과거와 달리 AI 기술의 발전은 모델이 아닌 데이터에 의해 이뤄지고 있다. 인공지능의 활용 분야가 무궁무진한 만큼, 데이터 및 가공의 종류도 상당히 다양하다. 라이다 데이터를 활용한 3D 인공지능 및 데이터 셋 구축도 앞으로 더욱 긍정적인 방향으로 흘러갈 것으로 보인다.
테스트웍스는 다양한 인공지능 데이터 셋을 효율적으로 구축하기 위한 연구에 더욱더 박차를 가하고 있다. 이렇게 연구 개발을 통해 다양한 인공지능 데이터에 대해서 그 가능성을 확인하고, 고품질의 데이터 셋 구축을 도모하면서 AI 전문기업으로서 지속 성장할 것이라 기대한다.
박예성
연구원, AI 연구 개발팀
홍익대학교 기계시스템디자인공학 학사
한양대학교대학원 지능형로봇학과 공학 석사
한양대학교 지능로봇연구소에서 인공지능 기술을 활용한 로봇 연구를 수행였다. 이후 컴퓨터 비전 및 딥러닝에 대해 관심을 갖고 현재 테스트웍스 AI 연구 개발팀에서 근무 중이다. GAN, 3D AI 부분을 연구하고 있다.