하둡의 이기종 문서 처리 XML

hadoop 1.1.1에서 작업합니다. XML 문서를 처리 할 때 MAHOUT에 XmlInputFormat을 사용합니다. START_TAG 및 END_TAG을 할당해야합니다. 프로세스의 이러한 종류의 데이터 이런 종류의 (균일)에 적합 : 내가 말한에 따르면하둡의 이기종 문서 처리 XML

는

<lib> 
    <book> ... </book> 
    <book> ... </book> 
    <book> ... </book> 
    ... 
</lib>

, 나는 START_TAG=<book> 및 END_TAG=</book>을 지정합니다. 문서 또는 데이터는 아래의 형태 (이종 *)에있는 경우 :

문헌 1

<lib> 
    <book> ... </book> 
    <article> ... </article> 
    <journal> ... </journal> 
    <www> ... </www> 
    ... 
</lib>

AND 문헌 2

<Doc> 
    <paper> ... </paper> 
    <white_paper> ... </white_paper> 
    <report> ... </report> 
    <booklet> ... </booklet> 
    ... 
</Doc>

어떻게 START_TAG과 END_TAG을 할당합니까? 이러한 종류의 데이터가 어떻게하면 할류에서 처리 될 수 있습니까?

감사

출처

2013-05-22 user90723014

for doc1 및 doc2는 lib이고 doc은 XML 문서 루트 요소이거나 문서를 구성하는 이러한 요소의 인스턴스가 여러 개입니까? –

내 문서가 여러 인스턴스로 구성됩니다. 아래 웹 사이트에서 찾을 수 있습니다. [link] (http://research.cs.wisc.edu/niagara/data/) – user90723014

두 가지 (세 가지, 네 가지) 유형의 문서 유형이 filename (doc1.lib.xml 및 doc2.doc.xml) 또는 동일한 xml 문서에 혼합되어 있습니까? –

글로벌 온톨로지 많은 동적으로 다른 문서 유형에서 사용 시작과 끝 태그를 정의 할 수 있습니다. 이기종 시스템을 처리 할 때 글로벌 온톨로지를 개발하는 것은 해당 시스템을 통합 할 때 항상 우선 순위가되어야합니다.

출처

2013-08-06 21:05:19

하둡의 이기종 문서 처리 XML

답변

관련 문제