2012-06-27 2 views
13

이기종 (다중 노드 유형 (다중 모드), 다중 에지 유형 (다중 관계) 및 다중 설명 기능 (다중 기능))에 대한 네트워크 분석 인프라를 찾고 있습니다.그래프 데이터베이스 : TinkerPop/Blueprints 대 W3C 링크 된 데이터

우리가 ThinkPop/Blueprintproperty graph model이 손 하나에 : 네트워크, 나는 그래프 데이터베이스 세계에서 두 개의 표준 스택이있는 것으로 나타났습니다. 이는 지원되는 Neo4j, OrientDB GraphDB, Dex, Titan, InfiniteGraph

Tinkerpop 스택은 Blueprint 특성 그래프 모델 인터페이스는 Gremlin 그래프 순회 언어 및 Furnace 그래프 알고리즘 패키지를 포함한다. AllegroGraph, 4store, Oracle Database Semantic Technologies, OWLIM, SYSTap BigData 지원하는 우리 W3C's Linked Data technology stack있는 반면에

등 시맨틱 데이터 RDF/RDFS/OWL 이용하여 표현되고, 사용 조회 할 수

SPARQL 상단에 rulesreasoning 기능을 제공합니다.

이제는 그래프 데이터베이스에서 이기종 데이터를 나타내고 통계 (관계 발견, 구조, 진화 등) 등의 데이터를 분석하고 싶다고 가정합니다.이 용어는 광범위하고 모호합니다. - 무엇입니까? 다양한 유형의 네트워크 분석 작업에 대한 각 모델의 상대적인 강점은 무엇입니까? 이 두 모델은 서로를 보완합니까?

답변

7

몇 가지 링크 된 데이터 스택의 예는 모두 트리플 스토어입니다. 먼저 트리플 스토어를 설정하여 연결된 데이터 응용 프로그램을 작성하기 시작할 것이지만 데이터베이스를 연결된 데이터 스택이라고 부르는 것은 잘못되었습니다. 또한 불완전한 트리플 스토어 목록입니다. Sesame, Jena, MulgaraStardog도 있습니다. 세서미 (Sesame)와 예나 (Jena)는 시맨틱 웹을위한 두 가지 사실상의 표준 Java API이지만 두 가지 모두 API와 함께 번들로 제공되는 트리플 스토어를 제공합니다. Cray와 IBM이 모두 트리플 스토어에서 일하고 있다는 것도 알고 있습니다. 그러나이 시점에서 저는 어느 부분에 대해서도 많이 알지 못합니다. 나는 Stardog가 TinkerPop 스택과 잘 작동한다는 것을 알고 있으며 기본적으로 RDF에 대한 Gremlin 쿼리를 작성하고 작성하기 시작했습니다.

나는 RDF/OWL의 강점은 1)가 표준 W3C있어) 실제 쿼리 언어 (2)를 얻을 생각 3) 당신은 트리플 스토어가 지원하는 경우 무료로, 추론을 얻을 (이상 또는 덜 - 당신은 여전히 ​​온톨로지를 써야합니다.)

RDF/OWL/SPARQL을 표준으로 사용하면 필요에 따라 다른 기능 세트를 사용하여 새로운 트리플 스토어로 이동하고 데이터를 쉽게 이해할 수 있으며 모든 사람들이 이해할 수있는 공통된 형식으로되어 있습니다. 쿼리로 인코딩 된 모든 응용 프로그램 논리는 완전히 이식 가능합니다. 그리고 대부분의 경우 Sesame API 나 Jena API를 사용하거나 SPARQL 프로토콜을 통해 작업하므로 config/init 만 변경하면됩니다. 초기 프로토 타입 단계에서 이것이 큰 승리라고 생각합니다.

RDF/OWL은 특히 새로운 SPARQL 1.1로 만들 수있는 복잡한 SPARQL 쿼리의 종류와 종류가 복잡한 분석 응용 프로그램을 만드는 데 적합하다고 생각합니다.또한 대부분의 사람들이 RDF 트리플 스토어가 확장되지 않는다는 인상은 더 이상 올바르지 않다고 생각합니다. 이 시점에서 대부분의 트리플 스토어는 수십억 개의 트리플에 쉽게 확장되며 매우 경쟁력있는 처리량 번호를 갖습니다.

내가 생각하는 바를 토대로, semweb이 더 나은 내기 일 수 있다고 생각합니다. 나는 RDFS & RDFS를 사용하여 비슷한 프로젝트를 몇 년 전에했다. 백엔드는 단순한 Pylons 기반 웹 애플리케이션을 앞세우며 그 결과에 매우 만족했다.