2014-12-16 7 views
0

Twitter 데이터를 분석하기 위해 py2neo와 함께 Neo4j를 사용하고 있습니다. 나는이 모든 것들에 초보자이다. 그래서 질문은 꽤 기초적 일 수있다. 그러나 나는 어떤 문서에서 답을 찾을 수 없었다. 두 개의 CSV 파일이 있습니다. 하나는 100 명의 팔로어이고 다른 하나는 약 22,000 개의 트윗이 있습니다. 짹짹 들어 내가 다른 짹짹 및이 트윗에 언급 된 다른 사용자에 대한 회신 같은 정보가 있습니다.py2neo를 사용하여 Neo4j의 노드 반복하기

노드로 추종자와 트윗을 추가 한 다음 트윗의 reply_to 및 mentions_user 필드를 사용하여 트윗 (reply_to)과 트윗과 사용자 (멘션) 사이의 연결을 추가하고 싶습니다.

노드를 추가하면 일괄 처리에서 잘 작동합니다. 그러나 py2neo를 사용하여 모든 트윗을 반복하여 관계를 추가하려면 OutOfMemoryError : Java 힙 공간이 필요합니다.

이 같은 트윗을 반복하기 위해 노력하고있어 :

for tweet in graph.find("Tweet") 

내 질문은 지금 : A)) 노드의 많은 (반복하는 py2neo 다른 방법이 있나요? b) 조금 더 광범위 : py2neo 문서에서 일괄 처리보다 cypher 트랜잭션을 사용하는 것이 더 좋습니다. 내가 그 일을해야하고 또한 a)를 도울 수 있어야합니까?

미리 도움을 청하십시오! KMM

답변

0

대량 데이터를 효과적으로로드하는 방법은 있지만 (특정 "유형"의 모든 항목을 찾는)이 특정 방법은 데이터베이스의 그래프 구조를 이용하므로 잘 확장되지 않습니다 .

일회용이면 Java 힙 크기를 늘릴 수 있지만 그만하면 빠져 나갈 수 있습니다. 하지만 가장 좋은 방법은 LOAD CSV 작업을 살펴 ​​보는 것입니다. http://neo4j.com/docs/stable/query-load-csv.html

관련 문제