2014-04-24 4 views
3

큰 텍스트로 된 문장 단편을 감지하기 위해 프로젝트 작업을하고 있으며 도구 또는 API가 필요합니다. 주어진 파일에서 문장을 탐지하기위한 OpenNLP와 같은 많은 솔루션이 있습니다. 그러나 문법적으로 정확한 문장에 속하지 않는 단어, 구문 또는 이벤트 문자 조합을 찾는 문제에 대한 명시적인 해결책을 찾을 수 없었습니다.텍스트 파일의 문장 단편을 자동으로 감지하는 방법

도움이 될 것입니다.

감사합니다,

Lorderon

답변

1

당신은 주위의 작품으로 N-그램을 사용할 수

당신이 참조 할 수 있도록 실제 문장 텍스트의 큰 컬렉션을 가지고 가정하자. 1,2,3,4,5 이상의 단어의 모든 시퀀스를 추출한 다음 텍스트에서 파편이 n 그램으로 존재하는지 다시 확인하십시오.

Google에서 직접 n-grams를 다운로드 할 수 있습니다 : http://googleresearch.blogspot.de/2006/08/all-our-n-gram-are-belong-to-you.html하지만 많은 트래픽이 필요할 수 있습니다.

또한이 경우 ngrams에게 자신을 셀 수 당신은 내 웹 사이트에서 위키 피 디아의 구문 분석 된 데이터 세트를 수행 할 수 있습니다 http://glm.rene-pickhardt.de/data/과 ngrams 자신을 만들기 위해 https://github.com/renepickhardt/generalized-language-modeling-toolkit에서 소스 코드 (또는 다른 N- 그램을 srilm, kylm, opengrm 등의 툴킷)

+0

안녕하세요. 답장을 보내 주셔서 감사합니다. n-grams가 나를 도울 지 모르겠다. 5 그램 또는 심지어 3 그램이 때때로 한 문장이 아니라는 것을 어떻게 확신 할 수 있습니까? 나는 전산 언어학 사람이 아니기 때문에 그걸 알아 내려고 노력하고 있습니다. 큰 텍스트 데이터가있을 때 오 탐지 (false positive)가 크지 않은지 다시 확인하는 방법은 무엇입니까? – Lorderon

관련 문제