Grechin과 Neo4j를 사용하여 infochimps에서 ENRON dataset을 조작하고 있습니다. 이 데이터 세트에는 Message
및 Email Addresss
의 두 가지 유형의 꼭지점과 두 가지 유형의 가장자리 인 SENT
및 RECEVIED_BY
이 있습니다. 이 데이터 세트에서 type: 'Message'
의 각 꼭지점에 대해 Lucene
문서를 만들고 문서의 추가 필드로 연결된 꼭지점 (예 : v.in()
, v.out()
)의 정보를 통합하는 맞춤 색인을 만들고 싶습니다.Neo4j 그래프에 사용자 정의 Lucene 인덱스를 작성하는 방법은 무엇입니까?
내가
g = new Neo4jGraph('enron');
PerFieldAnalyzerWrapper analyzer =
new PerFieldAnalyzerWrapper(new StandardAnalyzer());
analyzer.addAnalyzer("sender", new KeywordAnalyzer());
analyzer.addAnalyzer("recipient", new KeywordAnalyzer());
IndexWriter idx = new IndexWriter (dir,analyzer,IndexWriter.MaxFieldLength.UNLIMITED);
g.V.filter{it.type == 'Message'}.each { v ->
Document doc = new Document();
doc.add(new Field("subject", v.subject));
doc.add(new Field("body", v.body));
doc.add(new Field("sender", v.in().address);
v.out().each { recipient ->
doc.add(new Field("recipient", recipient.address));
}
idx.addDocument(doc);
}
idx.close();
내 질문
의 라인을 따라 코드를 생각하고는 다음과 같습니다- 인덱싱 정점을 열거 할 수있는 더 나은 방법이 있나요?
- 자동 인덱싱을 사용할 수 있습니까? 그렇다면 인덱싱 할 대상을 지정하는 방법은 무엇입니까?
Analyzer
을 직접 지정할 수 있습니까? 아니면 기본값으로 고정되어 있습니까? 기본값은 무엇입니까?- 내 색인을 만들어야하는 경우 gremlin을 사용해야합니까, 아니면 Java 프로그램을 사용하는 것이 좋을까요?
해결할 수 있었습니까? 나는 똑같은 문제에 직면하고있다. (구체적으로, 나는 당신의 질문에서 총알 1과 2에 대해 우려하고있다.) – gipouf