데이터라벨링으로 살펴본 ‘산업별 데이터 활용 현황’

크라우드소싱 기반 인공지능 데이터 수집×가공 플랫폼 기업 크라우드웍스가 ‘2020 산업별 데이터 활용 수요 현황 분석 보고서’를 발간했다.

보고서는 올해 1월 1일부터 8월31일까지 크라우드웍스에서 진행된 271건의 데이터 라벨링(인공지능 기술 고도화에 필요한 데이터를 수집하고 가공하는 작업) 프로젝트를 분석해 ‘4차 산업혁명 시대’를 맞아 IT, 제조, 의료, 유통, 금융, 공공, 연구 등 다양한 산업군의 데이터 활용 수요 현황을 담고 있다.

조사에 따르면 데이터 라벨링에 가장 적극적인 산업군은 IT였다. 전체 프로젝트의 68.3%에 해당하는 185건이 IT관련 산업이었으며, 수집 또는 가공된 데이터량만 1,576만개 이상으로 집계됐다. IT산업군 중에서도 가장 많은 데이터 라벨링을 진행한 분야는 AI로 전체 프로젝트의 44.9%(83건)을 차지했다.

IT산업군의 데이터 수요는 수집보다 가공이 더 높은 것으로 나타났다. 전체 프로젝트의 절반이 넘는 56.2%(104건)이 데이터 가공이었으며, 나머지 43.8%(81건)이 데이터 수집으로 조사됐다.

프로젝트별 데이터 유형에서는 전체 49.7%(92건)을 차지한 이미지가 가장 높았으며, 이어 텍스트 19.5%(36건), 음성 15.7%(29건), 동영상 9.2%(17건), 설문조사 5.4%(10건), 기타 0.5%(1건) 순으로 집계됐다.

비IT산업군에서 가장 많은 데이터 라벨링을 진행한 분야는 제조업이었다. 전체 58건의 프로젝트 가운데 32.8%(19건)를 기록했으며, 이어 의료 29.3%(17건), 유통 19%(11건), 스포츠 6.9%(4건), 금융 5.2%(3건) 등이 뒤를 이었다.

프로젝트 당 데이터 라벨링 수치가 가장 높은 곳은 공공기관으로 나타났다. 공공기관은 프로젝트 당 평균 20만개 이상의 데이터를 수집 또는 가공하며 국내 산업의 전체 평균치인 8만7,500개보다 134% 높은 수치를 기록했다.

한편 크라우드웍스의 ‘2020 산업별 데이터 활용 수요 현황 분석 보고서’는 홈페이지에서 다운로드 할 수 있다.