N 잡러 나도 가능할까?
요즘엔 본업 외에도 부업을 하는 사람들을 많이 볼 수 있습니다.
IT 산업이 나날이 발전하면서 크리에이터, 쇼핑몰, 재능 매칭 플랫폼 등 다방면으로 새로운 일들이 생겨나고 부업 또는 직업으로 삼는 사람들이 많습니다.
직장인들 가운데에서는 투잡, 쓰리잡을 넘어서 여러가지 직업을 가진 N 잡러들이 계속해서 늘어나고 있는 추세입니다.
이번 시간에는 누구나 마음만 먹고 어느 정도 교육만 받으면 어렵지 않게 하는 데이터 라벨링에 대해 알아보려고 합니다.
데이터 라벨링
인공지능 알고리즘 고도화를 위해서는 다양한 데이터를 주입해야 합니다.
AI는 사람이 사용하는 문서나 사진 등의 데이터를 식별할 수 없기 때문에 AI가 스스로 학습할 수 있는 형태로 데이터를 가공해야 합니다. 이러한 작업을 데이터 라벨링이라고 하며 이 작업을 하는 사람을 데이터 라벨러라고 부릅니다.
예로 들면, 학생이 성적을 올리기 위해 문제를 풀고 답을 확인하며, 오답노트를 작성하는 것과 같은 과정을 거치게 되는데, 학생에게는 문제를 풀었던 답과 실제 정답지가 함께 주어져야만 반복적으로 학습하고 성적을 올릴 수 있습니다. AI도 학습하면서 이와 같은 과정을 거치고 AI 학습 모델의 정확도를 높이고 고도화하기 위한 정답지가 바로 '학습 데이터'라고 볼 수 있습니다. 이 '학습 데이터'를 구축하는 과정이 데이터 모델링입니다.
쉽게 말해, 데이터 라벨링이란 컴퓨터가 알아들을 수 있도록 비정형 데이터를 알기 쉽게 변형하거나 가공하는 과정을 뜻합니다. 사람과 자동차가 같이 찍혀있는 사진을 AI가 보면 이를 자동차나 사람을 별다른 데이터 없이 인식할 수 없습니다. 그래서 컴퓨터가 인식할 수 있도록 사진 위에 자동차의 위치와 크기를 입력하고, 그 위치와 크기 안에 있는 이미지를 '자동차'라고 표시해주는 작업이 필요합니다. 이러한 일련의 과정이 바로 데이터 라벨링입니다.
예전에야 사람이 수작업으로 일일이 선택하고 영역을 잡아줘야 했다면 요즘엔 반자동화 툴로 AI가 인식할 수 있도록 데이터 값을 설정합니다. 과거의 데이터라벨링 작업은 사람이 직접 사물이 위치한 곳에 경계선을 긋는 형태로 진행되었다면, 현재는 비박스 형태, 3D 데이터에 맞춘 3차원 가공도 진행되고 있습니다. 앞으로 데이터 가공은 보다 복잡하고 정교해질 것이라고 설명했습니다.
▼데이터 라벨링 반 자동화 툴에 대해 더 자세히 알아보고 싶다면 아래글을 참고하시길 바랍니다.
대표적인 회사로 레이블러, 크라우드웍스 등이 있으며, 특정 프로젝트가 발생하면 앞서 말한 홈페이지에서 데이터 라벨러들이 스스로 참여 신청을 통해 일을 맡게 됩니다. 프로젝트마다 가이드라인이 존재하며, 난이도는 프로젝트마다 다릅니다. 보통 작업 가이드에는 작업 툴도 같이 제공되며, 대체적으로 플랫폼 자체의 고유의 툴이 있다고 합니다.
아직까지는 데이터라벨링 반자동화 툴을 사용해 데이터를 가공하는 것에 대한 표준은 없는 상태이며, 그렇기 때문에 업체별로 데이터 가공에 대한 프로세스에서 차이를 보이고 있습니다. 다만 공통적으로 거치는 단계로는
- 데이터 라벨링 데이터 가공 과정
1) 데이터 가공 컨설팅 협의
2) 데이터 확보 및 구축
3) 데이터 라벨링 수행
4) 검수
5) 테스트
6) 재학습
7) 최종 검수
데이터 라벨링은 소일거리로 부수입을 얻길 원하는 사람에게 좋으며, 시간과 장소에 구애받지 않고 가볍게 집중해서 하기에 좋다고 합니다. 하지만 노동시간 대비 소득이 늘어나는 구조는 아니며, 전문성이나 노하우를 기르기 어렵습니다.
하지만 데이터라벨링은 딥러닝에 필수적인 활동이며, 자동화가 진행되더라도 사람의 손을 거쳐야만 하는 작업들이 분명히 존재하기에 데이터 라벨링 산업은 점차 발전하고 있습니다.
▼ 데이터라벨링 입문 교육신청은 아래 글을 참고하시길 바랍니다.
데이터 라벨링, 그럼 아무나 할 수 있는 거 아니야?
사실 데이터 라벨링은 툴을 사용하기 때문에 겉보기엔 쉬워 보이지만 실상은 그렇지 않다는 데에 있습니다.
데이터 라벨링이 어려운 이유로는
1) 데이터 수집의 어려움
2) 데이터 품질 확보
3) 작업 입력 관리 및 양성
으로 위와 같이 데이터 수집의 어려움으로는 대량의 데이터를 수집하기 어려운 점이며, 어떠한 경로로 데이터를 수집할 지에 대한 방안을 수립하는 것도 중요합니다. 대량의 원천데이터를 확보하는 것 자체가 어려운데, 그 원천 데이터 안에서도 저작권 문제가 큰 문제점입니다.
라벨링된 데이터 품질을 확보하는 것이 어려운데, 실제로 라벨링 작업 시 작업에 대한 기준이 없다면, 품질이 낮은 데이터로 분류되기 때문에 데이터 라벨링에서는 명확한 기준을 정립하는 것이 중요합니다. 기본적인 상황 외에도 여러 변수가 존재하기 때문에 상세하고 명확한 기준이 필요합니다. 또한 이 같은 작업을 일정하고 정확하게 수행할 인력을 관리하고 양성하는 과정 역시 만만치 않습니다.
국내의 데이터 라벨링 산업
국내에서도 이제 데이터 라벨링 산업의 생태계가 조성이 되고 시장이 열리기 시작하고 있습니다.
이미 미국과 유럽 등에서는 AI 기술발전을 위해 정부와 민간의 협업과 투자로 대규모의 데이터셋을 공개하였으며, 데이터 라벨링을 비롯해 데이터 가공기술이 적용된 학습 데이터를 민간에 제공해 AI 모델 개발과 성능 개선, 다양한 서비스 개발에 이용할 수 있도록 돕고 있습니다.
AI 산업이 선순환 생태계를 조성하기 위해서는 구글의 '유투브 8M'과 같은 AI 학습 데이터 허브가 구축되어야 하지만 국내에서는 늦은 2018년에 들어서면서 한국정보화 진흥원에서 'AI 허브'라는 이름으로 데이터셋 구축산업을 진행하였습니다.
AI 기술 발전을 위한 정부와 민간의 협업 및 투자라는 목적의 외국의 선례와 비교하면 우리나라는 국내 중소 벤처기업들의 어려움을 해결하는 차원에서 데이터셋 구축 산업이 조성되었습니다. AI 학습용 데이터 구축에 많은 시간과 비용이 들고 있고, 원천 데이터 확보에 어려움을 겪고 있는 중소기업들을 지원하자는 목적으로 진행되었습니다.
반자동화 툴을 만드는 기업들
데이터 라벨링을 보다 손쉽게 하기 위해 반자동화 툴을 만드는 기업들이 있습니다. 이들 기업은 '디지털 뉴딜정책'으로 특히 주목받고 있습니다.
대표적으로 코난 테크놀로지, 테스트웍스, 슈퍼브 에이아이, 마인즈 랩 등이 있습니다.
데이터라벨링 교육 수료 뒤 데이터 라벨링 작업 후기도 있으니 참고하시길 바랍니다.
'공부 및 교육 > IT용어& 활동' 카테고리의 다른 글
'디지털 뉴딜' 데이터 라벨링 반자동 툴 제작 기업들과 데이터라벨링 절차 (0) | 2022.08.09 |
---|---|
크라우드 웍스 데이터 라벨링 본격적으로 실습 프로젝트 진행하기 (0) | 2022.08.08 |
크라우드웍스 데이터라벨링 입문 과정 수강 시작 (0) | 2022.08.05 |
크라우드 웍스 수강 대기, 학습시스템 회원가입 및 HRD 훈련생 등록 (0) | 2022.08.03 |
크라우드 웍스 데이터 라벨링 교육신청하기 (0) | 2022.08.02 |
댓글