자동화 된 팩트 확인 분류자를 만들기위한 프로젝트를 시작하지 않습니다. 따라야 할 프로세스에 대해 의구심이 있습니다.긍정적 인 문장으로 만 분류 훈련
나는 ~ 1000 문장의 데이터베이스를 가지고 있는데, 각각은 사실 확인 긍정적이다. 감독 된 기계 학습 모델을 구축하기 위해서는 사실 여부를 판별하는 후보 진술 여부에 따라 진실/거짓 결과가 포함 된 큰 문장 세트가 필요할 것입니다. 그렇게하려면 많은 시간과 노력이 필요할 것입니다. 먼저 그렇게하지 않고 결과를 얻으 려합니다 (덜 정확합니다).
제 아이디어는 이미 태그가 지정된 긍정적 인 문장을 사용하고 PoS 태그를 적용하는 것입니다. 이렇게하면 가장 일반적인 단어 (예 : 제기, 증가, 원) 및 게시 태그 (예 : 과거/현재 시제, 시간 및 숫자의 동사)와 같은 일부 패턴을 발견하는 데 흥미로운 정보를 얻을 수 있습니다.
이 결과로 새로운 분류되지 않은 문장을 분석하기 위해 가중치를 할당하는 것에 대해 생각하고 있습니다. 문제는 "heuristical"방식으로 체중 할당이 나에 의해 수행된다는 것입니다. 보다 정교한 방법으로 확률을 할당하는 일부 모델을 훈련시키기 위해 PoS 태거 결과를 사용하는 것이 가장 좋습니다.
이것을 수행 할 수있는 방법이 있다면 몇 가지 조언을 해 주실 수 있습니까?
최대 엔트로피 분류기 및 통계 파서에 대해 읽었지만 올바른 선택인지 정말로 모르겠습니다.
편집 (나는 더 자세한 정보를 제공하기 위해 더 좋을 거라고 생각) : 저를 필터링 할 수 있도록하고 가중치,
을 나에게 그들의 각 하나에 대한 몇 가지 유용한 정보를 제공하는 포스 술래와 문장을 구문 분석 일부 맞춤 측정 항목을 사용합니다. 예를 들어
:
5 년 전에 비해 빈곤 백만 더 많은 사람들이있다 - 사실 확인 후보 문장> 직설법 : 현재 시제, 숫자와 날짜의 동사 (이상) 비교.
우리는 다음 해 3 %로 GDP를 증가 - 해당 없음 사실 확인 후보 문장> 직설법 : 그것은 미래에 때 진정한
감사합니다. Breck, 나는 PoS 비트를 더 잘 설명하기 위해 몇 가지 정보를 추가했습니다. 이 접근법에 대해 어떻게 생각하는지 알고 싶습니다. 그건 그렇고, 나는 당신의 조언을 프로젝트에 적용하려고 노력할 것입니다. – Rod0n
POS tagger를 기능으로 사용해도 문제가 없습니다. 당신의 직감을 가지고 일할 수있었습니다. –