관계 추출 데이터 구축 실습
Updated:
과제 정의
과제 정의 시 고려할 요소
- 과제의 목적
- 데이터 구축 규모
- 원시 데이터
- 둘 이상의 개체와 개체 간의 관계를 추출할 만한 문장이 포함된 텍스트 선정
- 데이터의 주석 체계
- 데이터 주석 도구
- 주석 단계 세분화 후, 주석 도구 결정
- 트리플(Triplet)형태의 주석이 가능한 도구 선정 필요
- 필요기능
- 문자열에서 개체명 선택 → span을 지정하는 기능
- 개체명에 대한 레이블(label) 선택
- 개체명에 대한 관계선(edge) 그리기
- 관계선에 대한 레이블(label) 선택
- 데이터의 형식
- JSON 등
- 데이터 검수
- 데이터 형식의 정확도
- 관계 레이블의 정확도
- 관계 추출 정확도
-
- 검수 규모 정하기 : 전수 또는 특정 비율(어느 비율로 샘플링 할 것인가?)
-
- 작업자들에게 일부를 검수하게 하여 IAA를 조사
- 데이터 평가
- 작업자간 일치도(IAA, Inter-Annotator Agreement)
- Fleiss’ k
- Krippendorff’s a
- 모델 성능 평가
- TACRED : 정밀도(Precision), 재현율(Recall), F1
- KLUE : Micro F1, AUPRC(area under the precisionrecall curve)
- 작업자간 일치도(IAA, Inter-Annotator Agreement)
구축 프로세스 설계
- 과제 정의
- 과제 수행에 필요한 기본 사항들을 정의함
- 기존 데이터를 참고하여 세부 사항 결정
- 주석 데이터 확보
- 가용 가능한 원시 데이터 확보, 데이터별 장단점 비교
- RE와 같이 2단계 주석이 필요한 경우 모델을 통한 사전 가공도 이 단계에서 진행
- 가이드라인 작성
- 작업자에게 제공할 가이드라인 작성
- 파일럿 구축
- 가이드라인을 적용하여 실제 상황과 동일하게 파일럿 구축 작업 시행
- 주석 도구 결정이 이루어지지 않은 경우 간단한 도구를 이용하여 파일럿보다 미리 샘플 구축 작업 시행
- 파일럿 검수
- 파일럿 구축을 통해 이슈 발견, 모델 평가 진행
- 가이드라인 개정
- 파일럿 구축 검수 단계에서 발견된 이슈 반영
- 본 구축
- 실제 구축 작업 시행
- 본 구축 검수
- 검수 기준에 맞춘 데이터 검수, 모델 평가 진행
- 데이터 개정
- 검수 사항에 맞춰 데이터 개정
- 데이터 완성
- 기준을 세워 학습/검증/평가용으로 분리
- 레이블 균형 고려
가이드라인 작성
핵심 내용 : 주석 작업을 위한 가이드라인
- 작업 목적
- 작업 도구 사용법
- 작업 대상 문장과 아닌 문장 구분 기준
- 레이블별 주석 기준
Comments