관계 추출 과제의 이해

Updated: November 11, 2021

관계 추출 관련 과제의 개요

개체명이란 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미한다.

개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고, 각 개체명에 해당하는 태그를 주석함.

가장 널리 알려진 챌린지는 MUC-7, CoNLL 2003이 있다. 한국에서는 TTA의 개체명 태그 세트 및 태깅 말뭉치 문서가 표준이다.

관계 추출은 문장에서 나타난 개체명 쌍(Entity Pair)의 관계(Relation)을 판별하는 태스크이다.

개체명 쌍은 관계의 주체(Subject)와 대상(Object)로 구성된다.

관계 추출 태크 표는 대표적으로 TAC KBP 2016, TAC RED가 있다.

개체명을 인식(Named Entity Recognition)하고 모호성을 해소(Named Entity Disambiguation)하는 과제를 결합한 것.

텍스트에서 추출된 개체명을 지식 베이스(knowledge base)와 연결하여 모호성을 해소함.

AIDA CoNLL-YAGO Dataset 또는 TAC KBP English Entity Linking Comprehensive and Evaluation Data 2010등이 있음

NER, RE, EL은 기본적으로 비구조화된 텍스트에서 정보를 추출하여 구조화하려는 것이 목적입니다.

따라서 이 과정에서 지식 베이스가 활용되기도 하고, 이 결과물이 지식 베이스가 되기도 합니다.

정보처리의 관점에서 구조화된 정보의 활용도가 높기 때문에 이러한 시도는 앞으로도 계속 될 것입니다.

2개 이상의 태그로 주석될 수 있는 개체명 → 맥락에 기반한 주석
- 서울시는 정책을 발표했다. → Organization
- 그 카페는 서울시 서대문구 연희동에 있다. → Location
주석 대상의 범주 → 구체적 범주 및 기준 명시
- A급, B급, C급, 삼류(3류)