Hadoop에서 xml 파일 처리

Hadoop을 처음 사용했습니다. 나는 그것에 대해 거의 알지 못한다. 내 경우는 다음과 같습니다 : 동일한 스키마를 가진 xml 파일 (700GB 이상) 세트가 있습니다. Hadoop에서 xml 파일 처리

<article> 
<title>some title</title> 
<abstract>some abstract</abstract> 
<year>2000</year> 
<id>E123456</id> 
<authors> 
    <author id="1"> 
    <firstName>some name1</firstName> 
    <lastName>some name1</lastName> 
    <email>[email protected]</email> 
    <affiliations affid="123"> 
    <org>some organization1</org> 
    <org>some organization2</org> 
    </affiliations> 
    </author> 
    <author id="2"> 
    <firstName>some name2</firstName> 
    <lastName>some name2</lastName> 
    <email>[email protected]</email> 
    <affiliations affid="123"> 
    <org>some organization1</org> 
    <org>some organization2</org> 
    </affiliations> 
    </author> 
    <tags> 
    <tag>medicin</tag> 
    <tag>inheritance</tag> 
    </tags> 
</authors> 
<references> 
    <reference>some reference text1</reference> 
    <reference>some reference text2</reference> 
</references> 
</article>

나는 다음 표

기사
저자
태그
참조

를 포함하는 관계형 데이터베이스에 XML 파일 내의 데이터를 변환 에 작동하는 일련의 도구 통계 보고서 목록을 생성하고 다른 직원을 배치하기위한 표. References 테이블에서 전체 텍스트 검색을 사용하는 도구 때문에 Lucene Solr 인덱스에 저장했습니다.

내 질문은 : (저자, 기사, 태그 및 위에 나열된 개체 간의 분리의 어떤 종류를 만들기 XML 파일

에있는 데이터를 저장

: 내가 위해 하둡을 사용할 수 있습니다 참고 자료)
데이터에 대해 매우 복잡한 쿼리를 수행하는 툴을 실행하고 그것이 hadoop을 사용하여 수행 할 수 있다면 성능이 좋은가?

하둡이 사건에 대한 좋은 후보가 아닌 경우 일 것이다 MongoDB를 또는 카산드라 더 나은 솔루션 (같은 다른되는 NoSQL 데이터베이스 관계형 시스템 내 큰 문제는 난 복잡한 알고리즘을 가진 아주 나쁜 성능 때문에 내 일을하기 위해)?

미리 감사드립니다.

출처

2011-03-10 Mostafa Elmoghazi

데이터를 실행할 쿼리 종류에 대한 자세한 내용이 없으면 대답하기가 거의 불가능합니다. – bajafresh4life

bajafresh4life와 완전히 동의하면서 쿼리 유형을 알지 못해서 mapreduce (hadoop)로 변환 할 수 있는지 여부를 이해하지 못합니다. 다른 점은 hadoop이 nosql 데이터베이스가 아니라는 것입니다. Hadoop은 파일 시스템 + freemework로 작업합니다. 여기에는 hadoop과 밀접한 관계가 있고 nosql DB 인 Hbase가 있습니다. – yura

Google, Yahoo, Bing 등이 문서에서 웹 양식을 마크 업 형식으로 사용하여 저장하고 저장 한 다음 처리하여 관련 정보를 추출하고 쿼리 인터페이스를 제공합니다. 그 위에. 이 검색 엔진이 MapReduce 및 BigTable 구현 (예 : HBase 및 Cassandra과 같은)을 활용하여 검색을 수행하는 방법을 살펴 보시기 바랍니다.

출처

2011-09-08 01:52:14

Hadoop에서 xml 파일 처리

답변

관련 문제