2011-03-10 6 views
1

Hadoop을 처음 사용했습니다. 나는 그것에 대해 거의 알지 못한다. 내 경우는 다음과 같습니다 : 동일한 스키마를 가진 xml 파일 (700GB 이상) 세트가 있습니다. Hadoop에서 xml 파일 처리

<article> 
<title>some title</title> 
<abstract>some abstract</abstract> 
<year>2000</year> 
<id>E123456</id> 
<authors> 
    <author id="1"> 
    <firstName>some name1</firstName> 
    <lastName>some name1</lastName> 
    <email>[email protected]</email> 
    <affiliations affid="123"> 
    <org>some organization1</org> 
    <org>some organization2</org> 
    </affiliations> 
    </author> 
    <author id="2"> 
    <firstName>some name2</firstName> 
    <lastName>some name2</lastName> 
    <email>[email protected]</email> 
    <affiliations affid="123"> 
    <org>some organization1</org> 
    <org>some organization2</org> 
    </affiliations> 
    </author> 
    <tags> 
    <tag>medicin</tag> 
    <tag>inheritance</tag> 
    </tags> 
</authors> 
<references> 
    <reference>some reference text1</reference> 
    <reference>some reference text2</reference> 
</references> 
</article> 

나는 다음 표

  • 기사
  • 저자
  • 태그
  • 참조
  • 내가 가진

를 포함하는 관계형 데이터베이스에 XML 파일 내의 데이터를 변환 에 작동하는 일련의 도구 통계 보고서 목록을 생성하고 다른 직원을 배치하기위한 표. References 테이블에서 전체 텍스트 검색을 사용하는 도구 때문에 Lucene Solr 인덱스에 저장했습니다.

내 질문은 : (저자, 기사, 태그 및 위에 나열된 개체 간의 분리의 어떤 종류를 만들기 XML 파일

  • 에있는 데이터를 저장

    1. : 내가 위해 하둡을 사용할 수 있습니다 참고 자료)
    2. 데이터에 대해 매우 복잡한 쿼리를 수행하는 툴을 실행하고 그것이 hadoop을 사용하여 수행 할 수 있다면 성능이 좋은가?

    하둡이 사건에 대한 좋은 후보가 아닌 경우 일 것이다 MongoDB를 또는 카산드라 더 나은 솔루션 (같은 다른되는 NoSQL 데이터베이스 관계형 시스템 내 큰 문제는 난 복잡한 알고리즘을 가진 아주 나쁜 성능 때문에 내 일을하기 위해)?

    미리 감사드립니다.

  • +0

    데이터를 실행할 쿼리 종류에 대한 자세한 내용이 없으면 대답하기가 거의 불가능합니다. – bajafresh4life

    +0

    bajafresh4life와 완전히 동의하면서 쿼리 유형을 알지 못해서 mapreduce (hadoop)로 변환 할 수 있는지 여부를 이해하지 못합니다. 다른 점은 hadoop이 nosql 데이터베이스가 아니라는 것입니다. Hadoop은 파일 시스템 + freemework로 작업합니다. 여기에는 hadoop과 밀접한 관계가 있고 nosql DB 인 Hbase가 있습니다. – yura

    답변

    0

    Google, Yahoo, Bing 등이 문서에서 웹 양식을 마크 업 형식으로 사용하여 저장하고 저장 한 다음 처리하여 관련 정보를 추출하고 쿼리 인터페이스를 제공합니다. 그 위에. 이 검색 엔진이 MapReduceBigTable 구현 (예 : HBaseCassandra과 같은)을 활용하여 검색을 수행하는 방법을 살펴 보시기 바랍니다.