관계 추출 데이터 구축 실습

Updated:

과제 정의

과제 정의 시 고려할 요소

  • 과제의 목적
  • 데이터 구축 규모
  • 원시 데이터
    • 둘 이상의 개체와 개체 간의 관계를 추출할 만한 문장이 포함된 텍스트 선정
  • 데이터의 주석 체계
  • 데이터 주석 도구
    • 주석 단계 세분화 후, 주석 도구 결정
    • 트리플(Triplet)형태의 주석이 가능한 도구 선정 필요
    • 필요기능
      • 문자열에서 개체명 선택 → span을 지정하는 기능
      • 개체명에 대한 레이블(label) 선택
      • 개체명에 대한 관계선(edge) 그리기
      • 관계선에 대한 레이블(label) 선택
  • 데이터의 형식
    • JSON 등
  • 데이터 검수
    • 데이터 형식의 정확도
    • 관계 레이블의 정확도
    • 관계 추출 정확도
      • 검수 규모 정하기 : 전수 또는 특정 비율(어느 비율로 샘플링 할 것인가?)
      • 작업자들에게 일부를 검수하게 하여 IAA를 조사
  • 데이터 평가
    • 작업자간 일치도(IAA, Inter-Annotator Agreement)
      • Fleiss’ k
      • Krippendorff’s a
    • 모델 성능 평가
      • TACRED : 정밀도(Precision), 재현율(Recall), F1
      • KLUE : Micro F1, AUPRC(area under the precisionrecall curve)

구축 프로세스 설계

  • 과제 정의
    • 과제 수행에 필요한 기본 사항들을 정의함
    • 기존 데이터를 참고하여 세부 사항 결정
  • 주석 데이터 확보
    • 가용 가능한 원시 데이터 확보, 데이터별 장단점 비교
    • RE와 같이 2단계 주석이 필요한 경우 모델을 통한 사전 가공도 이 단계에서 진행
  • 가이드라인 작성
    • 작업자에게 제공할 가이드라인 작성
  • 파일럿 구축
    • 가이드라인을 적용하여 실제 상황과 동일하게 파일럿 구축 작업 시행
    • 주석 도구 결정이 이루어지지 않은 경우 간단한 도구를 이용하여 파일럿보다 미리 샘플 구축 작업 시행
  • 파일럿 검수
    • 파일럿 구축을 통해 이슈 발견, 모델 평가 진행
  • 가이드라인 개정
    • 파일럿 구축 검수 단계에서 발견된 이슈 반영
  • 본 구축
    • 실제 구축 작업 시행
  • 본 구축 검수
    • 검수 기준에 맞춘 데이터 검수, 모델 평가 진행
  • 데이터 개정
    • 검수 사항에 맞춰 데이터 개정
  • 데이터 완성
    • 기준을 세워 학습/검증/평가용으로 분리
    • 레이블 균형 고려

가이드라인 작성

핵심 내용 : 주석 작업을 위한 가이드라인

  • 작업 목적
  • 작업 도구 사용법
  • 작업 대상 문장과 아닌 문장 구분 기준
  • 레이블별 주석 기준

Comments