2014-04-08 3 views
0

나는 많은 문장의 텍스트 코퍼스를 가지고 있으며, 그 안에 몇 개의 명명 된 엔티티가 표시되어 있습니다. 예 : 문장 :클래스를 사용하여 텍스트 코퍼스 확대하기

위치 타 텍사스에서 가장 좋은 식당은 무엇입니까? 로 태그되어

:

<location>에서 최고의 레스토랑은 무엇인가?

이 코퍼스를 이미 확장 한 문장을 가져 오거나 샘플링하여 이름이 지정된 엔티티를 같은 유형의 다른 엔티티 (예 : "wichita texas"를 "new york"로 바꾸기 때문에 코퍼스는 더 커지고 (문장이 많아지고) 더 완전해질 것입니다. 나는 코퍼스에 나타나지 않지만 비슷한 항목의 목록을 가지고 있지만 대체물에 삽입 할 확률을 갖고 싶습니다.

방법에 대해 권장 할 수 있습니까? 특정 질문에 대한

답변

1

: 당신이 일반적으로 수동으로 잠재적으로 모호한 제거로 구성 ('장소', '사람'등을위한 별도의 목록처럼)라는 단체의 조직 목록을 가정 일의이 유형, 이름 (예 : '저지'는 장소 목록에서 제거되어 의류를 나타내는 인스턴스를 피할 수 있음). 가장 모호한 이름을 제거했다고 확신되면 각 용어 그룹 (예 : "위치"또는 "사람")에 적합한 태그를 선택하기 만하면됩니다. 이 단어 중 하나를 포함하는 각 문장에서 단어를 태그로 대체하십시오. 그런 다음 'location'을 포함하는 각 문장이 모든 위치 이름과 반복되도록 'person'을 포함하는 각 문장이 모든 사람 이름 등으로 반복되도록 몇 가지 기본 확장을 수행 할 수 있습니다.

단어 클래스를 사용하여 클러스터링에 대한 일반적인 개요, Brown et. al. 논문 : http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.13.9919&rep=rep1&type=pdf