아리랑 위성이 수집한 영상 데이터 80만 건, AI가 되다

아리랑 위성이 수집한 영상 데이터 80만 건, AI가 되다

들어가며

밤하늘을 바라보면 유독 밝게 빛나며 움직이는 불빛이 있습니다. 별이라고 생각할 수 있지만 대부분 ‘저궤도 위성’으로, 다른 위성보다 지구와 가까이 위치하여 자주 볼 수 있는데요. 우리나라에서는 ‘아리랑 위성’이 대표적인 저궤도 위성입니다. 아리랑 위성은 국내 유일의 다목적실용위성으로, 1999년 1호가 최초 발사된 이후 현재는 3호·5호·3A호가 운행되고 있으며, 2022년에는 6·7호의 발사를 앞두고 있습니다.

아리랑 위성은 고해상도 카메라로 지구 곳곳을 촬영하며, 이 영상 데이터는 국토 관리 및 국가안보, 재해 감시, 환경 관측 등에 활용됩니다. 우리나라에서는 북한 영변의 핵 시설 감시, 코로나 19로 인한 대기오염 변화, 산불 피해 면적 추산 등 다양한 영역에서 사용되고 있습니다. 이렇듯 위성영상 데이터에 대한 수요는 시간이 갈수록 높아지고 있으며, 위성 영상 및 정보를 활용한 서비스 시장도 확대되고 있는 추세입니다.


전세계 최대 규모 수준의 위성영상 데이터셋

라벨링이 완료된 데이터 예시

슈퍼브에이아이는 위성영상 데이터를 AI가 학습할 수 있는 형태로 가공 및 구축하였습니다. 데이터셋은 총 5종으로 구성되어 있으며, 데이터 종류에 따라 △관심 객체 검출 데이터(50만 건), △건물 윤곽 추출 데이터(20만 건), △도로 윤곽 추출 데이터(6000km 이상), △구름 추출 데이터(4천 장 이상), △수계 추출 데이터(2400장 이상)로 나뉩니다. 아리랑 3호/3A호/5호기로 촬영된 고해상도 광학 영상 및 레이더 영상을 수집하였으며, 60명의 라벨링 및 검수 인력이 총 4개월동안 프로젝트를 진행했습니다. 단일 데이터셋으로는 전세계에서 최대 규모입니다.

데이터셋 구성 및 목적
데이터셋 구성 및 목적

데이터셋 구축 조건이 까다로운 위성영상 데이터

이 정도 규모의 위성영상 데이터가 AI 학습용 데이터셋으로 가공되어 일반에 공개된 것은 국내에서 처음입니다. 위성영상 데이터는 데이터 수집, 라벨링, 검수 각 단계의 난이도가 모두 높습니다.

먼저, 위성영상 데이터는 아무나 수집할 수 없습니다. 국내 아리랑 위성의 모든 영상 데이터는 한국 항공우주연구원(KARI)이 보유하고 있습니다. 이 영상 데이터는 특정 판매업체들을 통해 구매할 수 있는데, 장당 가격이 높아 이번처럼 대규모 구축 작업을 수행하려면 데이터 수집에만 천문학적인 비용이 투입됩니다. 특히 아리랑 3/3A/5호기에서 수집된 위성영상 데이터는 장당 60만원에서 80만원을 호가합니다. 일반적인 AI 학습용 데이터셋의 구축량이 약 100만 장인 것을 감안하면, 일반 기업이 시도하기는 쉽지 않은 프로젝트입니다. 이번 프로젝트에서 슈퍼브에이아이는 한국항공우주연구원 및 위성영상 데이터 처리 및 분석에 전문성을 가진 SIIS, SIA와 협력하여 데이터를 수집하였습니다.

위성영상 AI 학습용 데이터셋 구축 컨소시엄
위성영상 AI 학습용 데이터셋 구축 컨소시엄

둘째로, 위성 영상 데이터는 장당 포함 객체 수가 높아 라벨링 난이도가 매우 높은 편입니다. 라벨링 난이도가 높다는 자율주행 데이터도 이미지 하나 당 포함되는 평균 객체의 수가 최대 약 20~30개 정도인데 반해, 위성 영상 데이터는 기본적으로 50개가 넘어갑니다.

💡
영상 데이터 프로젝트를 위한 슈퍼브 플랫폼 데모 알아보기


특히 건물 윤곽을 검출하는 위성 데이터의 경우 평균 객체수가 120개였고, 300개가 넘는 데이터도 종종 있었습니다. 이런 경우 데이터 한 장 당 소요되는 라벨링 시간이 길어지며, 비슷한 객체가 여러 개씩 포진되어 있는 데이터의 특성 상 라벨러가 쉽게 피로해질 수 있습니다. 작업자의 컨디션은 라벨링 품질과 직결되는 요소 중 하나인 만큼 관리자가 세심하게 챙겨야 하는 부분이며, 라벨링 품질을 2차적으로 평가/수정하는 검수자의 역할도 중요해집니다.

이 한 장의 데이터에는 약 170개의 오브젝트가 포함되어 있습니다

이 한 장의 데이터에는 약 170개의 오브젝트가 포함되어 있습니다

데이터 종류에 따른 라벨링 소요시간 및 장당 평균 객체

마지막으로, 위성 영상 분석 시 방해가 될 수 있는 기후 환경 요소들을 라벨링하는 작업이 추가적으로 필요합니다. 위성 영상 데이터의 활용도는 기후 환경에 많은 영향을 받게 되는데, 특히 구름이 많거나 비가 내리는 날에 촬영된 데이터는 거의 활용이 어렵고, 구름의 비중이 적은 데이터라면 해당 영역을 제외한 부분에서만 유의미한 정보를 얻을 수 있습니다.

때문에 AI가 구름의 영역을 ‘구름’, 즉 실제 지면 정보를 가리는 요소라고 인식할 수 있어야 합니다. 만약 AI가 구름을 인식하지 못하면, 구름과 그림자로 인해 가려진 부분을 단순히 ‘아무 것도 없는 영역’이라고 인식하는 불상사가 일어날 수도 있습니다.

짙은 구름, 옅은 구름, 그림자로 구별하여 라벨링 하였습니다

모든 조직이 협력할 수 있는 데이터 플랫폼 Suite

모든 데이터 라벨링 및 검수는 Superb AI Suite에서 진행되었습니다. 1차적으로 수집된 모든 원본데이터는 Suite에 업로드되었고, 각 컨소시엄 참여사와 프로젝트 매니저들, 그리고 라벨러가 하나의 플랫폼을 공유하며 유기적으로 작업을 진행하였습니다.

라벨에 대한 정보를 개괄적으로 확인할 수 있는 Suite의 Label List

‍정확한 라벨링 가이드라인 제공


먼저 Suite를 통해 까다로운 라벨링 작업을 효율적으로 수행할 수 있게끔 라벨링 가이드라인 제작하여 배포하고, 라벨러 교육을 진행했습니다. 라벨링 해야 하는 오브젝트에 대한 설명과 이미지를 첨부하여 라벨러가 프로젝트를 완벽히 이해하고 숙지하도록 했고, 라벨러들이 늘 가이드라인을 확인할 수 있게 가이드라인을 공유하였습니다.

실제 라벨러에게 제공되었던 라벨링 가이드라인 (부분 발췌)

대규모 인력의 실시간 동시 가공 및 검수


또한 클라우드 기반인 Suite에서 대규모 인원이 동시에 가공 및 검수를 진행할 수 있었습니다. 48명의 라벨러와 12명의 검수자에게 각각 작업할 데이터를 지정하여 각 작업을 책임감 있게 수행했으며, 수정사항이 있는 경우 Issue Thread 기능을 통해 검수자와 라벨러가 바로 소통하여 문제를 해결했습니다.

여기에 구축량에 대한 실시간 통계와 분석 리포트를 확인할 수 있어서 매니저가 체계적으로 프로젝트를 관리할 수 있었습니다. 그 결과 위성영상 객체 판독 AI 데이터의 객체 의미 정확성을 99.9%까지 달성할 수 있었습니다.

검수자와 라벨러가 실시간으로 소통할 수 있는 Issue Thread
실시간 데이터 구축 정보를 확인할 수 있는 Analytics 기능

마치며

위성 정보는 어떻게 분석/활용하는지에 따라 다양한 고부가가치를 창출할 수 있는 원천입니다. 슈퍼브에이아이가 참여하여 구축한 대규모 위성영상 AI 데이터셋은 현재 민간 기업, 대학, 연구기관 등에 제공되어 AI 알고리즘을 개발하는 데 유용하게 쓰이고 있습니다.

Suite는 인공지능 학습용 데이터셋 구축에 특화된 다양한 기능들을 탑재된 머신러닝 데이터 플랫폼입니다. 본 위성영상 데이터와 같이 대규모 데이터셋 구축이 고민이시라면, 지금 바로 Suite를 경험해보세요. Suite의 오토라벨링을 비롯한 다양한 기능들을 무료로 사용해볼 수 있습니다.

참고 자료