1
hadoop 1.1.1에서 작업합니다. XML 문서를 처리 할 때 MAHOUT에 XmlInputFormat
을 사용합니다. START_TAG
및 END_TAG
을 할당해야합니다. 프로세스의 이러한 종류의 데이터 이런 종류의 (균일)에 적합 : 내가 말한에 따르면하둡의 이기종 문서 처리 XML
<lib>
<book> ... </book>
<book> ... </book>
<book> ... </book>
...
</lib>
, 나는 START_TAG=<book>
및 END_TAG=</book>
을 지정합니다. 문서 또는 데이터는 아래의 형태 (이종 *)에있는 경우 :
문헌 1
<lib>
<book> ... </book>
<article> ... </article>
<journal> ... </journal>
<www> ... </www>
...
</lib>
AND 문헌 2
<Doc>
<paper> ... </paper>
<white_paper> ... </white_paper>
<report> ... </report>
<booklet> ... </booklet>
...
</Doc>
어떻게 START_TAG
과 END_TAG
을 할당합니까? 이러한 종류의 데이터가 어떻게하면 할류에서 처리 될 수 있습니까?
감사
for doc1 및 doc2는 lib이고 doc은 XML 문서 루트 요소이거나 문서를 구성하는 이러한 요소의 인스턴스가 여러 개입니까? –
내 문서가 여러 인스턴스로 구성됩니다. 아래 웹 사이트에서 찾을 수 있습니다. [link] (http://research.cs.wisc.edu/niagara/data/) – user90723014
두 가지 (세 가지, 네 가지) 유형의 문서 유형이 filename (doc1.lib.xml 및 doc2.doc.xml) 또는 동일한 xml 문서에 혼합되어 있습니까? –