2016-10-17 5 views
0

자동화 된 팩트 확인 분류자를 만들기위한 프로젝트를 시작하지 않습니다. 따라야 할 프로세스에 대해 의구심이 있습니다.긍정적 인 문장으로 만 분류 훈련

나는 ~ 1000 문장의 데이터베이스를 가지고 있는데, 각각은 사실 확인 긍정적이다. 감독 된 기계 학습 모델을 구축하기 위해서는 사실 여부를 판별하는 후보 진술 여부에 따라 진실/거짓 결과가 포함 된 큰 문장 세트가 필요할 것입니다. 그렇게하려면 많은 시간과 노력이 필요할 것입니다. 먼저 그렇게하지 않고 결과를 얻으 려합니다 (덜 정확합니다).

제 아이디어는 이미 태그가 지정된 긍정적 인 문장을 사용하고 PoS 태그를 적용하는 것입니다. 이렇게하면 가장 일반적인 단어 (예 : 제기, 증가, 원) 및 게시 태그 (예 : 과거/현재 시제, 시간 및 숫자의 동사)와 같은 일부 패턴을 발견하는 데 흥미로운 정보를 얻을 수 있습니다.

이 결과로 새로운 분류되지 않은 문장을 분석하기 위해 가중치를 할당하는 것에 대해 생각하고 있습니다. 문제는 "heuristical"방식으로 체중 할당이 나에 의해 수행된다는 것입니다. 보다 정교한 방법으로 확률을 할당하는 일부 모델을 훈련시키기 위해 PoS 태거 결과를 사용하는 것이 가장 좋습니다.

이것을 수행 할 수있는 방법이 있다면 몇 가지 조언을 해 주실 수 있습니까?

최대 엔트로피 분류기 및 통계 파서에 대해 읽었지만 올바른 선택인지 정말로 모르겠습니다.

편집 (나는 더 자세한 정보를 제공하기 위해 더 좋을 거라고 생각) : 저를 필터링 할 수 있도록하고 가중치,

을 나에게 그들의 각 하나에 대한 몇 가지 유용한 정보를 제공하는 포스 술래와 문장을 구문 분석 일부 맞춤 측정 항목을 사용합니다. 예를 들어

:

5 년 전에 비해 빈곤 백만 더 많은 사람들이있다 - 사실 확인 후보 문장> 직설법 : 현재 시제, 숫자와 날짜의 동사 (이상) 비교.

우리는 다음 해 3 %로 GDP를 증가 - 해당 없음 사실 확인 후보 문장> 직설법 : 그것은 미래에 때 진정한

답변

4

이 상황이 자주 발생합니다 (예측의 일종을 나타내는) 시제이다 문장은 데이터에서 비교적 드물다.

1) 결국 분류 할 문장과 유사한 문장을 구하십시오. 코퍼스는 진실과 거짓 문장을 모두 포함합니다. 그것들을 허위 또는 사실이 아닌 체크로 분류하십시오. 우리는 이것이 사실이 아니라고 알고 있지만 모두가 거짓이라고 가정하고 있습니다. 가능하다면 생성 된 참/거짓 데이터의 비율을 대략 실제 분포로 원하게됩니다. 따라서 실제 데이터에서 10 %가 사실이라면 가정 된 거짓 사례는 1,000 개의 사실에 대해 90 % 또는 9,000입니다. 배포본을 모르는 경우 10 배 이상으로 만듭니다.

2) 교차 유효성 검사를 사용하여 데이터에 최대로 엔트로피를 할당합니다. 보류 된 데이터에 대해 높은 점수의 오탐을 추적합니다.

3) 거짓 긍정에 대한 주석을 다시 적어서 점수가 참 긍정 일 가능성이있는 것으로 판단하십시오. 이렇게하면 잘못된 가정 데이터가 정리됩니다.

4) 더 이상 분류자를 개선하지 않을 때까지이 과정을 계속 실행하십시오.

5) "사실 확인 단어"를 얻으려면 기능 추출기가 분류기에 단어를 제공하고 진정한 카테고리와 관련이있는 단어를 찾으십시오. 적절한 로지스틱 회귀 분류기가 기능 무게를 제공해야합니다 어떤 식 으로든. 나는 확실히 LingPipe를 사용합니다.

6) PoS (Partial of Speech)가이 문제를 어떻게 돕는 지 알 수 없습니다.

이 접근법은 학습 데이터와 매우 다른 실제 인스턴스를 찾지 못하지만 그다지 효과적이지는 않습니다.

Breck

+0

감사합니다. Breck, 나는 PoS 비트를 더 잘 설명하기 위해 몇 가지 정보를 추가했습니다. 이 접근법에 대해 어떻게 생각하는지 알고 싶습니다. 그건 그렇고, 나는 당신의 조언을 프로젝트에 적용하려고 노력할 것입니다. – Rod0n

+1

POS tagger를 기능으로 사용해도 문제가 없습니다. 당신의 직감을 가지고 일할 수있었습니다. –

관련 문제