자연어 처리 데이터 기초

Updated: November 08, 2021

인공지능 모델 개발을 위한 데이터

데이터 종류

말뭉치 류(실제 텍스트 기반의 데이터)
- 대화문, 기사, SNS 텍스트, 댓글 등
사전/데이터베이스 류(텍스트 분석 시 참조로 사용되는 자원)
- 온톨로지, 워드넷, 시소러스 등

인공지능 기술의 발전

규칙기반(rule based) → 통계기반(statistics based) → 기계 학습 기반(machne learning based)

언어 모델 평가를 위한 종합적인 벤치마크 등장

GLUE(2018) : General Language Understanding Evaluation
Super GLUE(2019) : Dificult GLUE
KILT(2020) : Knowledge Intensive Language Tasks
GEM(2021) : Natural Language Generation, Evaluation, Metrics

벤치마크의 구성

과제(Task) - 평가(Test) 데이터, 검증(Dev/Validation) 데이터, 훈련(Train) 데이터
평가지표로 베이스라인 제공(human vs. model)
리더보드

데이터 관련 용어 정리

텍스트 (text)

주석, 번역, 서문 및 부록 따위에 대한 본문이나 원문. 언어 문장보다 더 큰 문법 단위. 문장이 모여서 이루어진 한 덩어리의 글을 이룬다.

말뭉치 (corpus, plural corpora)

말뭉치 : 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치(한 저작자의 저작 전부, 특정 분야 저작 전체)

텍스트 아카이브(text archive) : 텍스트들을 모아놓은 것. 기준이나 조건없이 저장
말뭉치(corpus) : 선별되고 구조화되고 설계된 것

데이터 (data)

컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보.

말뭉치 데이터 (corpus data) : 말뭉치 자체
말뭉치의 데이터 (data from corpus) : 용례 색인 결과, 언어 추출 결과, 통계 분석 결과

주석

주석 : tag, label, annotation
주석하다 : tagging, labeling
POS(Part of speech) tagger = 형태소 분석기(혼동하지 말것)

언어학의 연구 분야

음성 : 음성학
음운, 음절, 어절, 단어(어휘), 구, 절 : 음운론/형태론
단어(어휘), 구, 절, 문장 : 의미론, 화용론
문장 : 통사론
텍스트 : 텍스트 언어학
말뭉치 : 말뭉치 언어학

텍스트 데이터의 기본 단위

영어 말뭉치의 계량 단위 : 단어(=띄어쓰기 단위) / 문장 또는 발화

한국어 말뭉치의 계량 단위 : 어절(=띄어쓰기 단위) / 문장 또는 발화

한국어의 “단어” : 9품사(명사, 수사, 대명사, 동사, 형용사, 관형사, 부사, 조사, 감탄사)

조사 : 체언(명사, 수사, 대명사)와 붙어서 사용되기 때문에 띄어쓰기 단위와 단어의 단위가 일치하지 않음! 또한, “어미”는 하나의 품사로 인정되지 않으며 형태 단위이므로 독립된 단어가 아님
동사, 형용사를 제외한 나머지는 형태가 그대로 유지가 된다.
동사, 형용사는 활용하면서 형태가 바뀐다.
- 예) 달리다. 먹다. 마시다. 예쁘다. 밝다.

품사 : 단어를 문법적 성질의 공통성에 따라 몇 갈래로 묶어 놓은 것

품사 분류의 기준 : 의미(뜻, meaning), 기능(구실, function), 형식(꼴, form)

타입(type) & 토큰(token)

토큰화(Tokenization) → 표제어 추출(lemmatization) / 품사 주석 (POS, Part of Speech) tagging
토큰 : 언어를 다루는 가장 작은 기본 단위
- 단어 word, 형태소 morpheme, 서브워드 subword
타입 : 토큰의 대표 형태

N-gram

연속된 N개의 단위. 입력된 단위는 글자, 형태소, 단어, 어절 등으로 사용자가 지정할 수 있음

표상(representation)

대표로 삼을 만큼 상징적인 것.
자연어 처리 분야에서 표현으로 변역하기도 하나, 자연어를 컴퓨터가 이해할 수 있는 기법으로 표시한다는 차원에서 표상이 더 적합
표시를 통해 재현 과정을 통해 나타내는 작업
사전학습모델(PLM, pretrained langauge model), word2vec 등

자연어 처리 데이터 형식

HTML(Hypertext Markup Language)

우리가 보는 웹페이지가 어떻게 구조화되어 있는지 브라우저로 하여금 알 수 있도록 하는 마크업 언어

XML(Extensible Markup Language)

사람과 기계가 동시에 읽기 편한 구조. 다른 특수한 목적을 갖는 마크업 언어를 만드는데 사용하도록 권장하는 다목적 마크업 언어

<>안에 태그 정보를 부여

JSON(JavaScript Object Notation)과 JSONL(JavaScript Object Notation Lines)

속성-값 쌍(attribute-value pairs and array data type(or any other serializable value)) 또는 키-값 쌍으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷

JSONL : JSON을 한 줄로 만든 것

CSV(comma-separated values)

몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일

TSV(tab-separated values)

몇 가지 필드를 탭으로 구분한 텍스트 데이터 및 텍스트 파일

goooose