2012-12-14 2 views
0

나중에 Lucene을 통합 할 계획 인 텍스트 마이닝 프로젝트를 진행 중입니다. 현재 구현은 토큰 화, n-gram 기능 구축과 같은 일반적인 NLP 작업에 openNLP를 사용합니다. Lucene이 이러한 기능을 지원할 수 있는지 궁금합니다. OpenNLP와 비교할 때 Lucene은 대규모 문서 수집을위한 높은 효율성을 얻을 수 있습니까?일반적인 NLP 작업을위한 lucene 지원

+1

NLP 작업은 무엇입니까? Lucene이 토큰 화를한다는 것을 알고 있으며, n-gram을 수행하는 ShingleAnalyzer가 있다고 생각합니다. –

+0

NLP 작업에는 분류/클러스터링 목적을 위해 문서 모음을 기능 행렬로 처리하는 워크 플로가 포함됩니다. 이들은 일반적으로 토큰 화, N- 그램 생성 및 피쳐 매트릭스 구성으로 구성됩니다. Lucene은 명령 행 사용법을 제공합니까? – user297850

답변

1
  1. Lucene은 토큰 화 및 n- 그램 분석을 제공합니다.
  2. Lucene 문서에 하나 이상의 범주가있는 경우 히트 파이프가 분류 된 각 범주의 수를 계산 한 다음 하이퍼 파이프 분류기를 구현 한 다음 쿼리의 범주로 가장 많은 조회수를 가진 범주를 부여하면됩니다. (당신이 구현할 수있는 다른 분류 자들이있을 것이라고 확신합니다 - 검색 엔진을 백엔드로 사용하는 것으로부터 하이퍼 파이프가 쏟아져 나옵니다.)
  3. Lucene은 라이브러리이므로, GUI, 명령 행 프로그램 또는 서비스 (데몬)에서 사용할 수 있습니다.