데이터 구축 작업 설계
Updated:
데이터 구축 프로세스
- 과제 정의
- 데이터 수집
- 데이터 정제
- 데이터 주석 ↔ 데이터 검수
-
데이터 학습 ↔ 데이터 검수
- MATTER cycle : Model → Annotate → Train → Test → Evaluate → Revise
- MAMA cycle : Model → Annotate → Model → Annotate
데이터 구축 프로세스 - 예시
파일럿 구축 → 파일럿 검수 → 1차 구축 → 1차 검수 → 2차 구축 → 최종 검수
- 한국지능정보사회진흥원의 인공지능 (AI) 학습용 데이터 품질관리 가이드라인혹은 인공지능 (AI) 학습용 데이터셋 구축 안내서를 참고
데이터 주석
데이터 주석 유형 1 분류
문장 또는 텍스트에 대한 분류 레이블을 주석하는 유형 : 감성 분석, 주제 분류, 자연어 추론 등
구축 난이도는 일반적으로 낮은 편
데이터 주석 유형 2 특정 범위(span) 주석 - NER, 형태 분석
텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 - 개체명, 형태 분석 등
데이터 주석 유형 3 대상 간 관계 주석 - 개체명 연결, 구문 분석
대상 간 관계를 주석하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등
두 단계에 걸쳐 구축 해야 하므로 구축 난이도는 높은 편
데이터 주석 유형 4 텍스트 생성 - 번역
주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 - 대화문, 번역, 요약 등
데이터 주석 유형 5 그 외 - 복합 유형
앞선 유형의 데이터 구축 방식을 복합적으로 사용하여 다양한 정보를 주석하는 유형
질의 응답, 슬롯필링 대화 등
데이터 검수
- 가이드라인 정합성 : 각 주석 절차 및 주석 내용이 가이드라인에 부합하는지 확인
- 데이터 형식 : 메타 정보, 태그, 텍스트 내용 등의 형식이 맞는지 확인
- 통계 정보 : 메타 정보 및 레이블의 분포, 문장 길이, 단위 별 규모 확인
- 모델 성능 확인 : 모델 학습을 통해 결과값 확인
오류 원인 분석
- 구축방법 측면의 오류 원인 : 모델, 데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인하여 구축 절차, 구조, 학습 모델 측면의 다양한 오류 데이터 생성
- 가이드라인 측면의 오류 원인 : 구축 가이드라인의 불완전성, 미준수로 인하여 작업자간 서로 상이하게 작업을 수행하거나 데이터간 일관성 위배
- 데이터셋 측면의 오류 원인 : 데이터셋 설계의 부족, 구문정확성 위배, 데이터 중복 등
- 학습모델 측면의 오류 원인 : 학습모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못된 경우
데이터 검수 유형
- 표본 추출 : 데이터가 너무 많은 경우, 문제가 되는 레이블만 뽑아서 검사
- 전수 검사 : 데이터 양이 적은 경우, 데이터 형식 검사
데이터 평가
- 작업자 간 일치도(IAA, Inter-Annotator Agreemen) - Cohen’s k, Fleiss’ k
- 모델 평가 (Evaluation) - 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1
데이터 구축 프로세스 설계 시 유의 사항
- 데이터 구축 기간은 넉넉하게 설정할 것
- 검수에 충분한 시간을 확보할 것
- 검수 내용은 어느 시점에 어떻게 반영할 것인가 하는 계획을 세울 것
- 품질 미달인 경우 보완책을 마련할 것
- 작업 난이도에 따라 참여 인력을 산정하고, 참여 인력 모집 및 관리를 어떻게 할 것인지 고민할 것
- 각 단계별 작업의 주체를 고려할 것
- 각 단계별 검수 유형을 지정해둘 것
- 외부 인력 및 자원을 활용하는 경우 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것
Comments