자연어 처리 데이터 기초
Updated:
인공지능 모델 개발을 위한 데이터
데이터 종류
- 말뭉치 류(실제 텍스트 기반의 데이터)
- 대화문, 기사, SNS 텍스트, 댓글 등
- 사전/데이터베이스 류(텍스트 분석 시 참조로 사용되는 자원)
- 온톨로지, 워드넷, 시소러스 등
인공지능 기술의 발전
- 규칙기반(rule based) → 통계기반(statistics based) → 기계 학습 기반(machne learning based)
언어 모델 평가를 위한 종합적인 벤치마크 등장
- GLUE(2018) : General Language Understanding Evaluation
- Super GLUE(2019) : Dificult GLUE
- KILT(2020) : Knowledge Intensive Language Tasks
- GEM(2021) : Natural Language Generation, Evaluation, Metrics
벤치마크의 구성
- 과제(Task) - 평가(Test) 데이터, 검증(Dev/Validation) 데이터, 훈련(Train) 데이터
- 평가지표로 베이스라인 제공(human vs. model)
- 리더보드
데이터 관련 용어 정리
텍스트 (text)
주석, 번역, 서문 및 부록 따위에 대한 본문이나 원문. 언어 문장보다 더 큰 문법 단위. 문장이 모여서 이루어진 한 덩어리의 글을 이룬다.
말뭉치 (corpus, plural corpora)
말뭉치 : 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치(한 저작자의 저작 전부, 특정 분야 저작 전체)
- 텍스트 아카이브(text archive) : 텍스트들을 모아놓은 것. 기준이나 조건없이 저장
- 말뭉치(corpus) : 선별되고 구조화되고 설계된 것
데이터 (data)
컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보.
- 말뭉치 데이터 (corpus data) : 말뭉치 자체
- 말뭉치의 데이터 (data from corpus) : 용례 색인 결과, 언어 추출 결과, 통계 분석 결과
주석
- 주석 : tag, label, annotation
- 주석하다 : tagging, labeling
- POS(Part of speech) tagger = 형태소 분석기(혼동하지 말것)
언어학의 연구 분야
- 음성 : 음성학
- 음운, 음절, 어절, 단어(어휘), 구, 절 : 음운론/형태론
- 단어(어휘), 구, 절, 문장 : 의미론, 화용론
- 문장 : 통사론
- 텍스트 : 텍스트 언어학
- 말뭉치 : 말뭉치 언어학
텍스트 데이터의 기본 단위
영어 말뭉치의 계량 단위 : 단어(=띄어쓰기 단위) / 문장 또는 발화
한국어 말뭉치의 계량 단위 : 어절(=띄어쓰기 단위) / 문장 또는 발화
한국어의 “단어” : 9품사(명사, 수사, 대명사, 동사, 형용사, 관형사, 부사, 조사, 감탄사)
- 조사 : 체언(명사, 수사, 대명사)와 붙어서 사용되기 때문에 띄어쓰기 단위와 단어의 단위가 일치하지 않음! 또한, “어미”는 하나의 품사로 인정되지 않으며 형태 단위이므로 독립된 단어가 아님
- 동사, 형용사를 제외한 나머지는 형태가 그대로 유지가 된다.
- 동사, 형용사는 활용하면서 형태가 바뀐다.
- 예) 달리다. 먹다. 마시다. 예쁘다. 밝다.
품사 : 단어를 문법적 성질의 공통성에 따라 몇 갈래로 묶어 놓은 것
품사 분류의 기준 : 의미(뜻, meaning), 기능(구실, function), 형식(꼴, form)
타입(type) & 토큰(token)
- 토큰화(Tokenization) → 표제어 추출(lemmatization) / 품사 주석 (POS, Part of Speech) tagging
- 토큰 : 언어를 다루는 가장 작은 기본 단위
- 단어 word, 형태소 morpheme, 서브워드 subword
- 타입 : 토큰의 대표 형태
N-gram
- 연속된 N개의 단위. 입력된 단위는 글자, 형태소, 단어, 어절 등으로 사용자가 지정할 수 있음
표상(representation)
- 대표로 삼을 만큼 상징적인 것.
- 자연어 처리 분야에서 표현으로 변역하기도 하나, 자연어를 컴퓨터가 이해할 수 있는 기법으로 표시한다는 차원에서 표상이 더 적합
- 표시를 통해 재현 과정을 통해 나타내는 작업
- 사전학습모델(PLM, pretrained langauge model), word2vec 등
자연어 처리 데이터 형식
HTML(Hypertext Markup Language)
우리가 보는 웹페이지가 어떻게 구조화되어 있는지 브라우저로 하여금 알 수 있도록 하는 마크업 언어
XML(Extensible Markup Language)
사람과 기계가 동시에 읽기 편한 구조. 다른 특수한 목적을 갖는 마크업 언어를 만드는데 사용하도록 권장하는 다목적 마크업 언어
<>안에 태그 정보를 부여
JSON(JavaScript Object Notation)과 JSONL(JavaScript Object Notation Lines)
속성-값 쌍(attribute-value pairs and array data type(or any other serializable value)) 또는 키-값 쌍으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷
- JSONL : JSON을 한 줄로 만든 것
CSV(comma-separated values)
몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일
TSV(tab-separated values)
몇 가지 필드를 탭으로 구분한 텍스트 데이터 및 텍스트 파일
Comments