◆ 데이터 라벨링?
데이터 라벨링이란 AI 산업에서 필수적인 작업으로 좀 더 나은 AI 시스템을 구축하기 위해서 꼭 필요합니다.
말 그대로 데이터에 라벨링을 하는 작업을 일컫습니다.
▼데이터 라벨링을 왜 해야 되는지, 데이터 라벨링에 대해 더 알고 싶으시다면 아래 글을 참고하시길 바랍니다.
초기에는 수동으로 데이터 라벨링을 하나하나 작업했지만, 요즘엔 자동화 툴을 이용하여 데이터를 좀 더 편하게 라벨링 할 수 있게 되었습니다.
분류하기 까다로운 데이터와 다양한 포맷을 가진 데이터를 반자동화 툴을 이용해 데이터 라벨링을 하여 고품질의 데이터를 만들어 냄으로써 AI 시스템 구축에 큰 도움이 됩니다.
다양한 반자동화 툴을 알아볼 예정이며, 각 기업들의 데이터 라벨링의 절차에 대해서도 알아보겠습니다.
▶Superb AI (슈퍼브 에이아이) - Suite (스위트)
슈퍼브 에이아이는 데이터 라벨링 전문 기업으로 출발해 데이터 플랫폼까지 사업영역을 확장한 기업입니다.
데이터 플랫폼으로 사업 영역을 확장하면서 데이터 플랫폼 설루션인 '스위트 Suite'를 개발하였습니다.
회사 설립 2년 만에 손익분기점을 넘기며, 플랫폼 고도화에 많은 노력을 하는 기업입니다.
슈퍼브 에이아이는 우크라이나의 '민디 서포트', 한국인 창업자가 독일에 세운 AI 기업 '비프로 일레븐'에 솔루션을 제공하였습니다.
- Suite ; 스위트
스위트는 머신러닝 데이터를 구축, 분석, 관리하기 위한 플랫폼으로 AI 개발 과정에서 협업을 지원하는 생산성 도구입니다.
슈퍼브 에이아이의 스위트는 방대한 데이터의 가공, 데이터 시각화, 분석 기능을 제공하는데 초점이 맞춰진 설루션입니다.
또한, AI 개발에 참여하는 데이터 라벨러, 프로젝트 관리자, AI 리서치 엔지니어들이 서로 데이터와 관련된 자료를 공유하고, 이슈를 추적하고 편리하게 소통할 수 있는 UI/UX와 커뮤니케이션 도구들도 포함하고 있습니다.
데이터 구축 작업은 AI 개발 과정 중 약 80%를 차지할 정도로 많은 부분을 차지하고 있는데, 슈퍼브 에이아이의 스위트는 데이터 구축 작업을 스위트로 해결할 수 있다고 합니다.
스위트는 데이터 구축 작업도 물론이고, 오토 라벨링 기능을 탑재하여 사람이 수작업으로 했던 라벨링 작업의 양의 1/10 수준으로 줄여준다고 합니다. 라벨링은 물론 데이터의 품질 관리, 분석까지 가능한 플랫폼입니다. 다양한 이해 관계자의 어려움을 해결해주며, 최대 10배 빠른 작업을 지원합니다.
▶TESTWORKS (테스트 웍스) - Blackolive (블랙 올리브)
테스트 웍스는 2015년 6월에 설립된 회사로 사회적 소셜 미션을 수행하고 있으며, AI데이터와 자동화 전문 사회적 기업입니다.
테스트웍스는 크라우드 소싱 방식을 통해서도 라벨링 작업을 진행하고 있으며, 대학생이 라벨링 작업을 할 경우에는 대학교 졸업을 위해 채워야 하는 필수 요건인 봉사시간도 인정해 주고 있습니다. 테스트 웍스에서 데이터 라벨링 작업을 하기 위해서는 테스트 웍스의 툴 사용 및 라벨링에 대한 기초 교육을 받아야 합니다. 내일 배움 카드를 발급받아 HRD 홈페이지에서도 신청이 가능합니다.
테스트 웍스는 사회적 기업에 걸맞게 다양한 교육 프로그램을 진행하고 있으며, 모션 투에이 아이에 테스트 웍스의 '블랙 올리브' 설루션을 활용하여 단기간에 데이터를 자동화 및 정밀 가공을 가능하게 만들어 주었습니다.
- Blackolive ; 블랙올리브
테스트 웍스의 '블랙 올리브'를 통한 데이터 가공은 총 4단계를 거쳐서 가공됩니다. ①플랫폼이나 다양한 경로를 통해 원천 데이터를 얻은 후, ②수집한 데이터를 보호하기 위해 비 식별화 작업을 진행합니다. ③라벨러가 수월하게 일할 수 있도록 1차적으로 다양한 모델을 통해 비식별화된 데이터를 자동화합니다. ④자동화 프로세스를 거친 데이터들을 가공하고 검수자가 리뷰를 통해 한번 더 관리합니다. 이렇게 4단계의 가공 단계를 거친 후에는 고객사에 데이터를 전달합니다.
블랙 올리브는 가공된 데이터 관리에 특히 편리하고, 모델별 자동화가 가능하고, 템플릿을 통해 작업을 한 번에 생성하거나 손쉽게 작업을 생성할 수 있는 점 등 다양한 장점이 있습니다.
테스트 웍스의 블랙 올리브에서의 데이터 라벨링 방법으로는 바운딩 박스, 폴리곤, 폴리 라인, 포인트, 큐 보이드로 총 5가지입니다.
▶KONAN Technology (코난 테크놀로지)
코난 테크놀로지는 검색기업으로 출발해 현재는 AI 챗봇 기업으로 더 유명한 기업입니다.
코난 테크놀로지는 다른 기업의 설루션과는 다르게 웹페이지 형태로 라벨링 반자동화 툴이 구현되어있습니다.
코난 테크놀로지가 데이터 라벨링 반자동화 툴을 개발하게 된 계기는 바로 '비디오 튜링 테스트 VTT' 사업을 수행하기 위해 개발하게 되었는데, VTT를 위해서는 비디오 이해를 위해 데이터를 수집, 보정하는 자동화 툴이 필요하기 때문입니다.
공공사업에 주력해온 코난 테크놀로지는 반자동화 비즈니스 툴도 추진할 계획이라고 합니다. 대통령기록관에서 발주한 '얼굴인식 사업'을 수주했으며, 군 프로젝트인 '객체인식' 사업 우선 협상 대상자로 선정되기도 했습니다.
- 코난 테크놀로지 웹페이지 형태
현재는 코난테크놀로지에서는 동영상 데이터에 라벨링을 하고 있습니다. 데이터를 수집하고 이미지를 추출한 후에 크라우드 소싱으로 라벨링 작업을 수행하기도 하고, 내부 작업자를 통해 수행하기도 합니다. 크라우드 소싱으로 데이터 라벨링을 진행할 경우에는 통계기반(SQIP) 자동 검수를 진행하고, 내부 작업자를 통해 진행할 경우에는 품질관리자(AQM) 검수를 진행한 뒤 최종 검수를 하는 방식으로 진행됩니다.
이렇게 데이터 라벨링이 완료된 AI 학습 데이터를 AI 모델에 투입시키고, 전이 학습을 진행하는데 이 학습단계에서 다시 라벨링 단계로 순환시키면서 가공된 데이터의 품질을 지속적으로 향상합니다. 이를 통해 데이터 부족 문제로 해결할 수 있습니다.
코난테크놀로지의 웹페이지 반자동화 툴은 시중의 라벨링 툴보다 콘텐츠와 데이터 관리가 편리하고, 결과 데이터를 JSON 형식으로 바로 다운로드할 수 있는 장점이 있다고 합니다. 또한 보편적인 데이터 셋뿐만 아니라 필요한 라벨에 맞춘 커스텀 데이터셋을 구축할 수 있습니다.
▶MINDs Lab (마인즈 랩) - maum DATA (마음 데이터)
마인즈 랩은 마음 데이터 설루션을 기반으로 라벨링을 진행해 다양한 산업군에서 축적한 노하우를 살려, 전문 데이터 사이언티스트의 전문 컨설팅 기업입니다.
마인즈 랩은 크라우드 소싱을 통해 사회적 기업 역할을 위해 노력하며, 크라우드 소싱을 통해 라벨러들을 교육한 후 라벨링 작업을 진행하고 있습니다. 1시간당 최저임금을 기본으로 포인트 형태로 제공하고 있습니다.
마인즈 랩의 AI데이터 라벨링 구축 사례로는 '서울시 노후 경유차 차량번호 인식', '수원시 이상행동 CCTV 시스템 구축'이 있습니다.
- maum DATA(마음 데이터)
마인즈 랩의 마음 데이터라는 가공 서비스 안에 데이터 라벨링 툴이 있으며, 이 설루션으로 보이스 워크, 텍스트 워크, 이미지 워크 등 데이터를 가공하고 있습니다.
마음 데이터 라벨링 툴에는 텍스트를 음성으로 전환, 라벨링 작업 기능과 자동차 번호판 인식과 같은 이미지 라벨링 기능, 기계 독해 학습 기능, 입력된 텍스트나 문서의 내용을 분석하는 문서 분류 기능이 기본적으로 탑재되어 있습니다.
마인즈 랩의 마음 데이터 설루션의 음성 데이터 라벨링 작업에 대한 예를 들자면, 우선 주어진 음성을 듣고 분리작업을 수행하고 그 후에는 소음 및 잡음 제거, 음성 전사 작업, 추가 작업 필요시 진행한 뒤 기업에 데이터를 판매한다고 합니다.
'공부 및 교육 > IT용어& 활동' 카테고리의 다른 글
크라우드 웍스 데이터 라벨링 중급과정 시작 (0) | 2022.08.31 |
---|---|
바운딩이 뭐야? 크라우드 웍스 데이터 라벨링 실습 프로젝트 수료 완료 (0) | 2022.08.16 |
크라우드 웍스 데이터 라벨링 본격적으로 실습 프로젝트 진행하기 (0) | 2022.08.08 |
크라우드웍스 데이터라벨링 입문 과정 수강 시작 (0) | 2022.08.05 |
크라우드 웍스 수강 대기, 학습시스템 회원가입 및 HRD 훈련생 등록 (0) | 2022.08.03 |
댓글