0
나중에 Lucene을 통합 할 계획 인 텍스트 마이닝 프로젝트를 진행 중입니다. 현재 구현은 토큰 화, n-gram 기능 구축과 같은 일반적인 NLP 작업에 openNLP를 사용합니다. Lucene이 이러한 기능을 지원할 수 있는지 궁금합니다. OpenNLP와 비교할 때 Lucene은 대규모 문서 수집을위한 높은 효율성을 얻을 수 있습니까?일반적인 NLP 작업을위한 lucene 지원
NLP 작업은 무엇입니까? Lucene이 토큰 화를한다는 것을 알고 있으며, n-gram을 수행하는 ShingleAnalyzer가 있다고 생각합니다. –
NLP 작업에는 분류/클러스터링 목적을 위해 문서 모음을 기능 행렬로 처리하는 워크 플로가 포함됩니다. 이들은 일반적으로 토큰 화, N- 그램 생성 및 피쳐 매트릭스 구성으로 구성됩니다. Lucene은 명령 행 사용법을 제공합니까? – user297850