2016-12-22 1 views
0

elasticsearch에서 제공하는 대형 데이터 지향 검색 제품 작업. 우리는이 앱 위에 기계 학습 기능을 많이 구축했지만, 현재 표준 NLP 기반 단어 태그를 ES 색인에 통합하는 방법을 결정하는 데 어려움이 있습니다.Elasticsearch에서 NLP 태그 작업

현재 Google은 각 유형 (또는 유형을 포함하는 단어에 주석을 달 수 있지만 지금은 유용 할 수있는 태그 지정 서비스를 제공합니다. 이 함수는 다음으로 추상화 될 수 있습니다 : type = getWordType(word) 인덱스 시간에 적용되는 분석 체인에이 태그 지정 서비스를 통합하는 방법이 있어야한다고 생각합니다. 특정 단어가 속한 유형을 색인에 알려주는 경우가 있습니다. 그러나 이런 종류의 고급 분석을 수행하는 것은 내 elasticsearch 용량을 약간 뛰어 넘는 것입니다. 누군가가 elasticsearch에서 이런 종류의 고급 분석에 대한 지침을 가지고 있습니까?

감사합니다.

답변

2

Elasticsearch 5.0에 도입 된 ingest node 기능을 살펴볼 수 있습니다. 이렇게하면 Elasticsearch에서 문서를 인덱싱하기 전에 문서를 사전 처리하고 JSON에 필드를 추가 할 수 있습니다.

OpenNLP를 사용하여 문서를 풍부하게 만드는 인제 스트 프로세서를 작성했습니다. 그 중 하나를 살펴보고 필요에 맞게 조정할 수 있습니다 (또한 요청을 환영합니다).

것은 이것이 우리가 차 독립형 과정을 통해 추가 데이터를 제공하고 있던 약 것입니다 https://github.com/spinscale/elasticsearch-ingest-opennlp

+0

그것을 확인하십시오. 귀하의 접근 방식을 더 좋아하지만 두 가지 모두의 단점은 내가 여기에서 해결하려고 노력한다는 것입니다. 유형은 원본 입력에 대한 마크 업보다는 보조 필드를 통해 제공된다는 것입니다. 어쩌면 지금은 괜찮을거야. – downer