원시 데이터 수집과 가공

Updated:

원시 데이터 정의

원시 데이터란? 과제를 해결허기 위해 특정 도메인, 장르, 주제 등에 대하여 조건에 맞춰 수집하였으나, 주석 단계를 거치지 않은 상태의 데이터

원하는 형태로 가공하기 이전의 데이터로 목적에 맞는 전처리 과정을 거쳐 가공이 되어야 활용할 수 있음

원시 텍스트 수집 시 검토 사항

  • What (수집 대상, 포함 요소(메타정보)) : 시간별, 주제별, 지역별, 매체별 대상, 텍스트 생성 주체, 텍스트 생성 시기 등
  • When (수집 기간) : 수집 작업 기간
  • Where (수집 장소(수집 대상, 저장 대상)) : 크라우드 소싱 플랫폼, SNS, 크롤링 서버, 로컬 저장소 등
  • Who (담당자) : 수집 작업 담당자
  • How (수집 방법, 수집 주기, 데이터 형식, 규모) : 크롤링, 모델 생성, 크라우드 소싱, JSON, txt 등
  • Why (수집 목적, 기대 결과) : 과제별 목적 및 기대 결과
  • 크라우드 소싱의 경우 개인정보 수집 동의와 저작권 활용 계약이 중요함

원시 텍스트 데이터 사용역(장르)에 따른 분류

  • 문어 : 신문기사, 소설, 수필, 논문, 잡지, 보고서 등
  • 구어(음성 파일을 텍스트로 전사) : 일상 대화, 연설, 강연
    • 준구어 : 방송 대본, 영화 대본 등
  • 웹 : SNS, 커뮤니티 게시판, 메신저 대화, 블로그, 이메일 등

원시 텍스트 데이터의 메타 정보

텍스트 외에 텍스트를 설명하는 정보.

텍스트 ID, 이름, 저장 정보, 매체 정보, 주석 정보, 출처, 형태/구문 분석 정보 등을 사전에 정해진 양식에 맞춰 기록

  • Dataset.identifier : type(string)
  • Dataset.name : type(string)
  • Dataset.src_path : type(string)
  • Dataset.label_path : type(string)
  • Dataset.category : type(number)
  • Dataset.type : type(number)

원시 데이터 수집 시 고려 사항

  • 획득 가능성
    • 획득이 불가능하거나 통제 불가능한 주기를 가지고 있다면 원시데이터의 정책에 의존하게 되므로 바람직하지 않음 → 사실상 수집이 불가능
    • 획득이 용이하더라도 서비스 활용 측면에서 데이터를 활용하기 위해 가공 처리에 많은 비용이 드는 데이터는 선정하기 어려움
    • 직접 산출이 어려운 경우 획득 난이도 측면에서 트래픽량과 저장처리 장치의 용량 등을 고려 대상, 획득 대상의 대안 필요
  • 데이터 균형과 다양성
    • 개체의 다양성, 목적 및 상황의 다양성, 시간별, 종류별, 사람별, 지역별 다양성
  • 신뢰성
    • 데이터의 품질이 신뢰할 수 있는지 검토
  • 범 제도 준수
    • 개인정보 및 사생활 보호가 필요한 항목 획득 시, 개인정보보호법 등에 따라 적절한 법적, 기술적 절차를 거친 데이터를 활용하며, 그렇지 않은 데이터는 정제 과정에서 처리될 수 있도록 함

저작권

원시 데이터에 주석 작업을 하는 경우, 결과물은 2차적 저작물로 간주되며 라이센스는 원시 데이터를 따름

CC BY-SA : 주석 작업 가능 → 라이센스 CC-BY-SA 가능

CC BY-ND : 주석 작업 불가능

CC BY-NC-SA : 주석 작업 가능 → 라이센스 CC-BY-SA 불가능

데이터 윤리

윤리기준은 관련 규범이 불확실하거나 법제도가 급속한 기술발전을 따라가지 못할 경우에도 사회가 나아가야 할 방향을 제시하는 의의

→ 인공지능 국가전략에 따른 ‘사람 중심의 인공지능’구현을 위해 글로벌 기준과의 정합성을 갖춘 ‘인공지능 윤리기준’마련 추진

원시 데이터 전처리

전처리 단계

  • 추출 대상 확인
    • 메타정보
    • 주석 대상 텍스트 : 주석 대상 표현 포함 텍스트 여부, 텍스트 길이 범위
  • 불필요 요소 제거 및 변환
    • 개인정보 비식별화
    • 비윤리적 표현 정제
  • 정제 대상 확인
    • 숫자, 외국어, 기호, 이모지
    • 띄어쓰기, 맞춤법, 오탈자
    • 개인 정보
    • 문장 분리

원시 데이터 가공 - 주석 도구

주석(annotation, labeling)

원시 데이터를 가공하여 원하는 정보를 부착하는 작업.

텍스트를 단순히 분류하여(긍부정, 주제) 해당 분류를 텍스트에 삽입하거나 개체명, 관계 정보 등의 정보를 문자열에 직접 주석할 수 있음.

  • 구글 스프레드 시트 : 여러 명 작업자 가능, 데이터 관리 용이, CSV 형식으로 export 가능
  • 구글 폼 : 단순 분류 문제 등 복잡한 주석 도구가 필요하지 않은 경우에 적합. 작업자 모집에도 활용
  • Brat : 오픈 소스 데이터 주석기
  • Doccano : NER, 감정분석, 기계 번역 등 주석 기능 제공. 서버 또는 로컬에 설치하여 사용
  • Tagtog : 웹 기반 주석 도구. 다양한 형식 지원. 무료 이용시 데이터 공개해야 함

Comments