URL을 설명하는 데 사용되는 태그와 태그로 구성된 그래프 데이터베이스를 상상해보십시오. 이를 통해 우리는 가장 자주 사용되는 태그 집합을 찾고 각 식별 된 집합에 속하는 URL을 결정하고자합니다.가장 자주 사용되는 별개의 용어 집합 찾기
내가이 cypher
에서 같은 문제를 단순화하는 데이터 세트 만들려고했습니다 참조 (neo4j console example here)로이 사용
CREATE (tech:Tag { name: "tech" }), (comp:Tag { name: "computers" }), (programming:Tag { name: "programming" }), (cat:Tag { name: "cats" }), (mice:Tag { name: "mice" }), (u1:Url { name: "http://u1.com" })-[:IS_ABOUT]->(tech), (u1)-[:IS_ABOUT]->(comp), (u1)-[:IS_ABOUT]->(mice), (u2:Url { name: "http://u2.com" })-[:IS_ABOUT]->(mice), (u2)-[:IS_ABOUT]->(cat), (u3:Url { name: "http://u3.com" })-[:IS_ABOUT]->(tech), (u3)-[:IS_ABOUT]->(programming), (u4:Url { name: "http://u4.com" })-[:IS_ABOUT]->(tech), (u4)-[:IS_ABOUT]->(mice), (u4)-[:IS_ABOUT]->(acc:Tag { name: "accessories" })
을, 우리는 그것을보고 시각적으로 가장 일반적으로 사용되는 것을 확인할 수 있습니다 태그는 tech
및 mice
(이 쿼리는 간단합니다) 모두 3 개의 URL을 참조합니다. 가장 일반적으로 사용되는 태그 쌍은 [tech, mice]
(이 예에서)은 2 개의 URL (u4 및 u1)로 공유되는 유일한 쌍입니다. 이 태그 쌍은 일치하는 URL의 하위 집합이므로 둘 중 하나에 대한 전체 집합이 아니라는 점에 유의해야합니다. 모든 URL에서 공유하는 3 개의 태그 조합은 없습니다.
cypher
검색어를 사용하여 가장 자주 사용되는 태그 조합 (쌍 또는 N 크기 그룹)을 식별하려면 어떻게해야합니까? 분석을 쉽게하는이 데이터를 구조화하는 더 좋은 방법이 있을까요? 아니면이 문제는 그래프 DB에 적합하지 않습니까? 이 것을 파악하려고 애쓰는 데 조금 어려움을 겪어 왔습니다. 어떤 도움이나 생각이라도 고맙게 여길 것입니다!
좋은 물건. 정말 흥미로운 접근 방법이며, 그래프 초보자 인 경우 도움없이이 솔루션에 도달하는 데 다소 시간이 걸릴 것입니다. 매우 감사! –