stemming

    0

    1답변

    lucene Stemmer에 관한 질문이 있습니다. lucene이 줄기가있는 단어와 줄기가없는 단어를 모두 유지하는지 궁금 해서요 아니면 줄기가있는 단어를 줄기가없는 단어로 바꾸겠습니까? 예를 들어 기록은 다음과 같은 경우 : 는 그것이 로 인덱싱 될 것 않습니다 그것은 같은 전략을 가지고 있는가 OR "모두 사랑 고양이" "모두가 사랑 고양이 고양이 사랑

    2

    1답변

    텍스트에서 일부 키워드를 추출하려고합니다. 그것은 아주 잘 작동하지만 복수형을 제거해야합니다. 이미 Lucene을 검색 목적으로 사용하고 있으므로 색인화 된 용어로 키워드를 추출하는 데 사용하려고합니다. 나는 "대통령"과 같은 용어를 가질 수있는 용어 목록에서 var list = new List<KeyValuePair<int, string>>(); usi

    24

    3답변

    텍스트 블록에서 키워드를 추출하는 Java 라이브러리를 찾고 있습니다. 프로세스는 다음과 같아야합니다 중지 단어 청소 -> 형태소 분석 -> 영어 언어학 통계 정보를 기반으로 키워드를 검색 - 단어 측면에서 영어보다 텍스트 번 이상 나타나는 경우 의미 확률이 키워드 후보보다 이 작업을 수행하는 라이브러리가 있습니까?

    2

    1답변

    내 검색 앱에서 형태소 분석을 구현하려고합니다. 이미 ~ 연산자를 사용해 보았지만 작동하지 않았습니다. 1) 나는 인덱스 특별한 방법으로 문서가 ~ 연산자를 사용하여 검색 할 수 있도록해야 : 그래서, 나는 3 개 질문이? 문서에 "words"가 있지만 query = "~ word"와 함께 찾을 수 없습니다. 2) 연산자 ~ 다른 언어를 지원합니까? 3)

    3

    1답변

    "Ben"(네덜란드어 중지 단어)을 인식 할 수 있도록 lucene 분석기를 수정해야합니다. 친절하게 나를 인도합니다. Lucene Analyzer가이 단어를 일반 단어로 받아들이도록하려면 어떻게합니까? 서버에 대한 는 Repository.xml <paramname="analyzer"value="org.hippoecm.repository.query.luce

    0

    4답변

    필자는 일종의 형태소 분석기/기각 장치를 구현해야합니다. 나는 다른 형태로 몇 마디 (수천)를 가지고있다. 그것은 형태 적 사전이 아니라 단지 작은 부분입니다. 파일에서 자동으로 스 트리머를 배우는 것이 좋은 생각입니까? 사용할 수있는 오픈 소스 구현이 있습니까?

    1

    2답변

    K-Means Algorithm을 구현하려고하는데 벡터 부분에 대해 혼란 스럽습니다. 이것은 내가 무슨 짓을 : 각 문서에 대한 , 내가 거기에 각 단어에 대한 TF-IDF를 생성하고 저장 STL 맵에서 그. 그런 다음 알고리즘에 대한 코사인 유사성을 실제 단어와 함께 사용했습니다. 어디에서 형태소 분석 부분을 사용해야합니까? 먼저 단어를 줄이고 줄기 단어

    2

    1답변

    파일에서 형태소 분석을하고 싶습니다. 터미널에서 사용할 때 제대로 작동하지만 텍스트 파일에 적용하면 작동하지 않습니다. 터미널 코드 : print PorterStemmer().stem_word('complications') 기능 코드 : def stemming_text_1(): with open('test.txt', 'r') as f:

    0

    1답변

    나는이 NLP에 새로 왔지만 POS 태깅 및 문장 청킹의 모든 예는 멈춤 단어를 제거하지 않은 것으로 보입니다. POS 태그 지정을 수행하고 Chunking을 수행하는 경우 질문을 통해 불용어 (및 줄기)를 제거해야 할 필요성이 제거됩니까?

    0

    1답변

    SOLR 3.5 텍스트 필드 유형에서 StopFilterFactory는 PorterStemFilterFactory 앞에 나열됩니다. 예를 들어 '게임'과 '게임'으로 중지하고 싶다면 불용어에 둘 다를 추가해야한다는 의미입니까? PorterStemFilterFactory 다음에 StopFilterFactory를 이동하고 "게임"을 중지 단어에 추가하면 "게임