0

엄청난 양의 문서 (주로 pdfs 및 doc 's)가 있기 때문에 분류하고 싶기 때문에 특정 태그에 따라 검색 할 수 있습니다. 이 태그들은 내 자신의 것일 수도 있고 (나는 태그를 문서에 넣을 수도있다) 텍스트에서 추출 할 수도있다.태그로 분류 문서

방금이 게시물 (Classify data using Apache Mahout)과 관련이 있지만 어쩌면 더 간단한 것이 있습니다.

+0

자동 [문서 분류] (http://en.wikipedia.org/wiki/Document_classification)와 관련하여 원하는 것이 명확하지 않습니다. 감독 또는 감독되지 않은 문서 분류를 원하십니까? 또는 세미 감독 문서 분류를 원하십니까? –

+0

반 감독을 원한다면 ... D. 예, 문서에 대한 정보를 제공하고 싶습니다. – geekazoid

답변

3

Mahout이 문제가 될 수 있습니다.하지만 OpenNLP를 사용하면 Mahout이 상당히 빠르고 쉬운 해결책을 얻을 수 있습니다.

http://opennlp.sourceforge.net/api/index.html

특히, opennlp.tools.doccat 패키지 봐. 근본적으로, 당신은 통과하고 당신이 원하는 각 카테고리에 대한 항목의 작은 (틱) 세트를 수동으로 태그해야합니다. 그들이 정말로 별개의 것이라면, 작은 표본 크기로 벗어날 수 있습니다.

DocumentCategorizerME.train() 정적 함수를 사용하면 문서 모음을 학습 할 수 있습니다. 각 문서에서 카테고리 태그와 텍스트 블록이 필요합니다. 그런 다음 교육 된 모델로 DocumentCategorizerME를 초기화하고 나머지 모든 문서를 분류하기 시작할 수 있습니다.

이렇게하면 모델을 파일에 쓸 수 있으므로 다시 할 필요가 없습니다.

0

extracting keywords and classifying webpages에 관한이 게시물은 관련되어 유용 할 수 있습니다. 귀하의 예제에서는 키워드 추출 부분 대신 태그를 사용할 수있는 것처럼 들리지만 (두 가지를 조합하여 사용할 수도 있음) Weka은 사용하기 쉽습니다. 꼭 한번 들러 보시기를 권합니다.