2016-08-26 1 views
0

문서 분류에 OpenNLP를 성공적으로 사용했으며 정규 표현식을 사용하여 훈련 된 샘플에서 이름을 추출 할 수있었습니다.OpenNLP로 문장의 위치를 ​​기반으로 콘텐츠 검색

위치 문장을 기반으로 이름 (또는 더 일반적으로 말하면 과목)을 추출 할 수 있는지 궁금합니다.

예. 예를 들어, Travel to <START:location> New York </START>과 같이 선험적 인 명칭으로 훈련하는 대신, 구체적인 예를 제공하지 않고 OpenNLP가 지정된 위치에 나타나는 것이 엔티티가 될 수 있다고 결정하게합니다. 그런 식으로, 나는 가능한 모든 옵션을 제공 할 필요가 없을 것이다. (내 경우에는 불가능하다.) 가능한 주변 문장에 대해서만 제공한다.

답변

1

이것은 컨텍스트 기반 학습이며 Opennlp는 이미이를 수행합니다. 당신은 좋은 결과를 얻기 위해 적절하고 많은 예를 가지고 그것을 훈련해야합니다. 우리의 문장 Professor X있을 때

예를 들어, Opennlp는 X 그것의 뿅 교수가없는 문장에있을 때, 그것은 이름으로 출력 X을 제공하지 않을 수 있습니다 반면 model.bin는 이름으로 X 당신은 출력을 제공합니다 훈련했다.

문서에 따르면 15,000 문장의 교육 데이터를 제공하므로 좋은 결과를 기대할 수 있습니다.

+0

문제는 필자의 예처럼 문장이 항상 비슷하게 보입니다. 'Travel to ...'의 15000 가지 예를 생각해 보면 필자는 필자가 후속하는 일반적인 주제 검색을 필요로하지 않을 것입니다. – digitalbreed

+0

훈련 데이터에 Travel : xyz 과 같은 문장이 있으면 n-gram처럼 모델을 배울 수 있습니다! 좋은 결과를 기대할 수 있습니다. – Nuwanda

관련 문제