데이터 구축 작업 설계

Updated:

데이터 구축 프로세스

  • 과제 정의
  • 데이터 수집
  • 데이터 정제
  • 데이터 주석 ↔ 데이터 검수
  • 데이터 학습 ↔ 데이터 검수

  • MATTER cycle : Model → Annotate → Train → Test → Evaluate → Revise
  • MAMA cycle : Model → Annotate → Model → Annotate

데이터 구축 프로세스 - 예시

파일럿 구축 → 파일럿 검수 → 1차 구축 → 1차 검수 → 2차 구축 → 최종 검수

  • 한국지능정보사회진흥원의 인공지능 (AI) 학습용 데이터 품질관리 가이드라인혹은 인공지능 (AI) 학습용 데이터셋 구축 안내서를 참고

데이터 주석

데이터 주석 유형 1 분류

문장 또는 텍스트에 대한 분류 레이블을 주석하는 유형 : 감성 분석, 주제 분류, 자연어 추론 등

구축 난이도는 일반적으로 낮은 편

데이터 주석 유형 2 특정 범위(span) 주석 - NER, 형태 분석

텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 - 개체명, 형태 분석 등

데이터 주석 유형 3 대상 간 관계 주석 - 개체명 연결, 구문 분석

대상 간 관계를 주석하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등

두 단계에 걸쳐 구축 해야 하므로 구축 난이도는 높은 편

데이터 주석 유형 4 텍스트 생성 - 번역

주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 - 대화문, 번역, 요약 등

데이터 주석 유형 5 그 외 - 복합 유형

앞선 유형의 데이터 구축 방식을 복합적으로 사용하여 다양한 정보를 주석하는 유형

질의 응답, 슬롯필링 대화 등

데이터 검수

  • 가이드라인 정합성 : 각 주석 절차 및 주석 내용이 가이드라인에 부합하는지 확인
  • 데이터 형식 : 메타 정보, 태그, 텍스트 내용 등의 형식이 맞는지 확인
  • 통계 정보 : 메타 정보 및 레이블의 분포, 문장 길이, 단위 별 규모 확인
  • 모델 성능 확인 : 모델 학습을 통해 결과값 확인

오류 원인 분석

  • 구축방법 측면의 오류 원인 : 모델, 데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인하여 구축 절차, 구조, 학습 모델 측면의 다양한 오류 데이터 생성
  • 가이드라인 측면의 오류 원인 : 구축 가이드라인의 불완전성, 미준수로 인하여 작업자간 서로 상이하게 작업을 수행하거나 데이터간 일관성 위배
  • 데이터셋 측면의 오류 원인 : 데이터셋 설계의 부족, 구문정확성 위배, 데이터 중복 등
  • 학습모델 측면의 오류 원인 : 학습모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못된 경우

데이터 검수 유형

  • 표본 추출 : 데이터가 너무 많은 경우, 문제가 되는 레이블만 뽑아서 검사
  • 전수 검사 : 데이터 양이 적은 경우, 데이터 형식 검사

데이터 평가

  • 작업자 간 일치도(IAA, Inter-Annotator Agreemen) - Cohen’s k, Fleiss’ k
  • 모델 평가 (Evaluation) - 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1

데이터 구축 프로세스 설계 시 유의 사항

  • 데이터 구축 기간은 넉넉하게 설정할 것
  • 검수에 충분한 시간을 확보할 것
  • 검수 내용은 어느 시점에 어떻게 반영할 것인가 하는 계획을 세울 것
  • 품질 미달인 경우 보완책을 마련할 것
  • 작업 난이도에 따라 참여 인력을 산정하고, 참여 인력 모집 및 관리를 어떻게 할 것인지 고민할 것
  • 각 단계별 작업의 주체를 고려할 것
  • 각 단계별 검수 유형을 지정해둘 것
  • 외부 인력 및 자원을 활용하는 경우 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것

Comments