Intro to Natural Language Processing(NLP) 정리

Updated: September 06, 2021

자연어 처리는 기본적으로 컴퓨터가 주어진 단어나 문장, 보다 더 긴 문단이나 글을 이해하는 Natural Language Understanding(NLU)가 있고 이런 자연어를 상황에 따라 적절히 생성할 수 있는 Natural Language Generation(NLG) 두 종류의 task로 구성됩니다.
Natural language processing (major conferences: ACL, EMNLP, NAACL)
- Low-level parsing
  - Tokenization : 문장을 단어(Token) 단위로 나누는 과정
  - stemming : study, studying과 같이 어미가 달라지면서 단어 의미가 변하는데 그 과정에서 어근은 고정되어 있도록 의미를 추출하는 과정
- Word and phrase level
  - Named entity recognition(NER) : Newyork Times와 같이 단어를 나눠서 해석하지 않는 단일단어, 고유명사를 인식하는 과정
  - part-of-speech(POS) tagging : word들이 문장내에서 어떤 역할을 하는지 알아내는 과정(주어, 본동사, …)
  - noun-phrase chunking
  - dependency parsing
  - conference resolution
- Sentence level
  - Sentiment analysis : 문장의 느낌(긍정 혹은 부정)
  - machine translation : 주어진 문장을 이해하고 다른 언어로 번역하는 과정
- Multi-sentence and paragraph level
  - Entailment prediction : 두 문장간의 논리적인 내포, 모순을 예측
  - question answering : 독해기반의 문장을 이해하고 답을 하는 과정
  - dialog systems : 챗봇
  - summarization : 주어진 문서를 요약하는 과정
Text mining(major conference: KDD, The WebConf (formely, WWW), WSDM, CIKM, ICWSM)
- 특정 키워드의 빈도수를 파악해서 트렌드를 분석하거나 상품을 출시하여 소비자 반응을 얻어내는데 활용될 수 있다.
- Document clustering (topic modeling)
- computational social science와 매우 밀접하여 소셜 미디어에 기반하여 사회 과학적인 인사이트를 발견하는데 활용되고 있다.
Information retrieval (major conference: SIGIR, WSDM, CIKM, RecSys)
- 정보검색 분야이고 상당히 성숙되어 있는 분야이다.
- 추천 시스템분야 또한 이곳에 속한다.

goooose

Intro to Natural Language Processing(NLP) 정리

Comments

You May Also Enjoy

Databricks Vector Search Index

Langchain GPT-OSS 구조화된 출력 트러블슈팅

바이브 코딩과 증강 코딩(Vibe Coding & Augmented Coding)

Spark on Kubernetes