Hadoop을 처음 사용했습니다. 나는 그것에 대해 거의 알지 못한다. 내 경우는 다음과 같습니다 : 동일한 스키마를 가진 xml 파일 (700GB 이상) 세트가 있습니다. Hadoop에서 xml 파일 처리
<article>
<title>some title</title>
<abstract>some abstract</abstract>
<year>2000</year>
<id>E123456</id>
<authors>
<author id="1">
<firstName>some name1</firstName>
<lastName>some name1</lastName>
<email>[email protected]</email>
<affiliations affid="123">
<org>some organization1</org>
<org>some organization2</org>
</affiliations>
</author>
<author id="2">
<firstName>some name2</firstName>
<lastName>some name2</lastName>
<email>[email protected]</email>
<affiliations affid="123">
<org>some organization1</org>
<org>some organization2</org>
</affiliations>
</author>
<tags>
<tag>medicin</tag>
<tag>inheritance</tag>
</tags>
</authors>
<references>
<reference>some reference text1</reference>
<reference>some reference text2</reference>
</references>
</article>
나는 다음 표
- 기사
- 저자
- 태그
- 참조 내가 가진
를 포함하는 관계형 데이터베이스에 XML 파일 내의 데이터를 변환 에 작동하는 일련의 도구 통계 보고서 목록을 생성하고 다른 직원을 배치하기위한 표. References 테이블에서 전체 텍스트 검색을 사용하는 도구 때문에 Lucene Solr 인덱스에 저장했습니다.
내 질문은 : (저자, 기사, 태그 및 위에 나열된 개체 간의 분리의 어떤 종류를 만들기 XML 파일
- : 내가 위해 하둡을 사용할 수 있습니다 참고 자료)
- 데이터에 대해 매우 복잡한 쿼리를 수행하는 툴을 실행하고 그것이 hadoop을 사용하여 수행 할 수 있다면 성능이 좋은가?
하둡이 사건에 대한 좋은 후보가 아닌 경우 일 것이다 MongoDB를 또는 카산드라 더 나은 솔루션 (같은 다른되는 NoSQL 데이터베이스 관계형 시스템 내 큰 문제는 난 복잡한 알고리즘을 가진 아주 나쁜 성능 때문에 내 일을하기 위해)?
미리 감사드립니다.
데이터를 실행할 쿼리 종류에 대한 자세한 내용이 없으면 대답하기가 거의 불가능합니다. – bajafresh4life
bajafresh4life와 완전히 동의하면서 쿼리 유형을 알지 못해서 mapreduce (hadoop)로 변환 할 수 있는지 여부를 이해하지 못합니다. 다른 점은 hadoop이 nosql 데이터베이스가 아니라는 것입니다. Hadoop은 파일 시스템 + freemework로 작업합니다. 여기에는 hadoop과 밀접한 관계가 있고 nosql DB 인 Hbase가 있습니다. – yura