최근 N잡 부업으로 많은 관심을 받고 있는 ‘데이터라벨링’ 일감이 줄어들 것으로 보인다. 일부에서는 정부 차원에서 데이터라벨링 물량을 축소해 ‘비데이터라벨링’이 확대될 것으로 보고있다.
데이터라벨링 A to Z
무조건 장점만 있는 것은 아냐
데이터라벨링은 이미지, 영상, 오디오 등 데이터에 이름을(라벨링) 붙이는 작업으로, 인공지능(AI)이 각각의 데이터를 학습해 유사한 이미지를 인식할 수 있도록 하는데 활용된다.
데이터라벨링 업무는 정부의 한국판 뉴딜의 일환으로 디지털 뉴딜을 추진하면서 생긴 ‘크라우드웍스’ 등과 같은 플랫폼을 통해 할 수 있다.
작업 자체도 어렵지 않다. ‘디지털판 인형 눈알 붙이기’라는 수식어가 붙을 정도로 거의 단순한 반복 작업이 주를 이루기 때문이다.
여기에 노트북만 있으면 어디에서든 일 할 수 있고, 작업에 따라 출퇴근이 아닌 재택근무가 가능해 직장을 다니면서도 할 수 있다.
하지만 장점만 있는 것은 아니다. 급여 자체가 건당으로 이뤄지는 경우가 많은데다 건당 단가도 낮게 측정되어 있다.
여기에 작업을 수행하더라도 작업물이 상황에 따라 수시로 ‘반려’가될 가능성도 있으며, 반려가 되면 반려가 마무리 될 때까지 시간안에 재작업을 해야한다.
일거리가 몰리는 특정 시기를 제외하면 부업 자체를 못할 가능성도 있다.
데이터라벨링 물량 축소
비라벨링 데이터 구축
올해 4월 과학기술정보통신부(이하 과기정통부)는 ‘초거대AI경쟁력 확대 방안’을 발표했다.
해당 방안에는 올해 학습 데이터 구축에 총 2805억원을 투입, 신규 데이터 150종을 구축한다는 내용이 담겨있다.
눈여겨볼 점은 기존 라벨링 데이터 물량은 일부 축소하고, 비라벨링 데이터 구축을 확대한다는 점이다.
챗GDP와 같은 새로운AI 기술이 등장하면서 문장, 이미지 등 다양한 형태의 내용을 생성할 수 있게 해주는 알고리즘이 발전됐고, 라벨링을 하지 않은 비라벨링 데이터의 효용가치가 높아졌다고 본 것이다.
모델 크기가 작을 땐 별다른 효과를 내지 못했던 비라벨링 데이터가 ‘자기 지도학습(비지도학습)’이나 ‘ 강화학습’을 하는 초거대 AI에서 효력을 발휘한 것이다.
과기정통부는 2027년까지 총 200종의 비라벨링 데이터를 구축하기로 했다.
올해 476억원의 예산을 들여 한국어를 중심으로 데이터로 기반을 잡은 뒤 동남아∙중동 등 언어 데이터도 단계적으로 늘릴 방침이다.