자연어 처리 데이터 기초

Updated:

인공지능 모델 개발을 위한 데이터

데이터 종류

  • 말뭉치 류(실제 텍스트 기반의 데이터)
    • 대화문, 기사, SNS 텍스트, 댓글 등
  • 사전/데이터베이스 류(텍스트 분석 시 참조로 사용되는 자원)
    • 온톨로지, 워드넷, 시소러스 등

인공지능 기술의 발전

  • 규칙기반(rule based) → 통계기반(statistics based) → 기계 학습 기반(machne learning based)

언어 모델 평가를 위한 종합적인 벤치마크 등장

  • GLUE(2018) : General Language Understanding Evaluation
  • Super GLUE(2019) : Dificult GLUE
  • KILT(2020) : Knowledge Intensive Language Tasks
  • GEM(2021) : Natural Language Generation, Evaluation, Metrics

벤치마크의 구성

  • 과제(Task) - 평가(Test) 데이터, 검증(Dev/Validation) 데이터, 훈련(Train) 데이터
  • 평가지표로 베이스라인 제공(human vs. model)
  • 리더보드

데이터 관련 용어 정리

텍스트 (text)

주석, 번역, 서문 및 부록 따위에 대한 본문이나 원문. 언어 문장보다 더 큰 문법 단위. 문장이 모여서 이루어진 한 덩어리의 글을 이룬다.

말뭉치 (corpus, plural corpora)

말뭉치 : 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치(한 저작자의 저작 전부, 특정 분야 저작 전체)

  • 텍스트 아카이브(text archive) : 텍스트들을 모아놓은 것. 기준이나 조건없이 저장
  • 말뭉치(corpus) : 선별되고 구조화되고 설계된 것

데이터 (data)

컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보.

  • 말뭉치 데이터 (corpus data) : 말뭉치 자체
  • 말뭉치의 데이터 (data from corpus) : 용례 색인 결과, 언어 추출 결과, 통계 분석 결과

주석

  • 주석 : tag, label, annotation
  • 주석하다 : tagging, labeling
  • POS(Part of speech) tagger = 형태소 분석기(혼동하지 말것)

언어학의 연구 분야

  • 음성 : 음성학
  • 음운, 음절, 어절, 단어(어휘), 구, 절 : 음운론/형태론
  • 단어(어휘), 구, 절, 문장 : 의미론, 화용론
  • 문장 : 통사론
  • 텍스트 : 텍스트 언어학
  • 말뭉치 : 말뭉치 언어학

텍스트 데이터의 기본 단위

영어 말뭉치의 계량 단위 : 단어(=띄어쓰기 단위) / 문장 또는 발화

한국어 말뭉치의 계량 단위 : 어절(=띄어쓰기 단위) / 문장 또는 발화

한국어의 “단어” : 9품사(명사, 수사, 대명사, 동사, 형용사, 관형사, 부사, 조사, 감탄사)

  • 조사 : 체언(명사, 수사, 대명사)와 붙어서 사용되기 때문에 띄어쓰기 단위와 단어의 단위가 일치하지 않음! 또한, “어미”는 하나의 품사로 인정되지 않으며 형태 단위이므로 독립된 단어가 아님
  • 동사, 형용사를 제외한 나머지는 형태가 그대로 유지가 된다.
  • 동사, 형용사는 활용하면서 형태가 바뀐다.
    • 예) 달리다. 먹다. 마시다. 예쁘다. 밝다.

품사 : 단어를 문법적 성질의 공통성에 따라 몇 갈래로 묶어 놓은 것

품사 분류의 기준 : 의미(뜻, meaning), 기능(구실, function), 형식(꼴, form)

타입(type) & 토큰(token)

  • 토큰화(Tokenization) → 표제어 추출(lemmatization) / 품사 주석 (POS, Part of Speech) tagging
  • 토큰 : 언어를 다루는 가장 작은 기본 단위
    • 단어 word, 형태소 morpheme, 서브워드 subword
  • 타입 : 토큰의 대표 형태

N-gram

  • 연속된 N개의 단위. 입력된 단위는 글자, 형태소, 단어, 어절 등으로 사용자가 지정할 수 있음

표상(representation)

  • 대표로 삼을 만큼 상징적인 것.
  • 자연어 처리 분야에서 표현으로 변역하기도 하나, 자연어를 컴퓨터가 이해할 수 있는 기법으로 표시한다는 차원에서 표상이 더 적합
  • 표시를 통해 재현 과정을 통해 나타내는 작업
  • 사전학습모델(PLM, pretrained langauge model), word2vec 등

자연어 처리 데이터 형식

HTML(Hypertext Markup Language)

우리가 보는 웹페이지가 어떻게 구조화되어 있는지 브라우저로 하여금 알 수 있도록 하는 마크업 언어

XML(Extensible Markup Language)

사람과 기계가 동시에 읽기 편한 구조. 다른 특수한 목적을 갖는 마크업 언어를 만드는데 사용하도록 권장하는 다목적 마크업 언어

<>안에 태그 정보를 부여

JSON(JavaScript Object Notation)과 JSONL(JavaScript Object Notation Lines)

속성-값 쌍(attribute-value pairs and array data type(or any other serializable value)) 또는 키-값 쌍으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷

  • JSONL : JSON을 한 줄로 만든 것

CSV(comma-separated values)

몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일

TSV(tab-separated values)

몇 가지 필드를 탭으로 구분한 텍스트 데이터 및 텍스트 파일

Comments