2013-04-29 1 views
0

InfoChimps에서 제공되는 백만 곡 데이터 세트 전체를 다운로드하고 싶습니다. AWS를 사용하지 않고 데이터를 다운로드하려는 대학에서 제공하는 클러스터를 사용하고 있습니다. 나는 현재 wget을 사용하고 있지만 다운로드가 오래 걸릴 것입니다. 데이터를 다운로드하는 더 좋은 방법이 있습니까?280GB의 백만 곡 데이터 세트 다운로드

또한 먼저 로컬 파일 시스템으로 다운로드 한 다음 -copyFromLocal을 사용하여 HDFS로 복사하는 대신 Hadoop File System으로 직접 데이터를 다운로드 할 수 있습니까?

도와주세요.

감사합니다.

답변

2

내 생각에 가장 좋은 방법은 Flume 또는 Chukwa과 같은 데이터 집계 도구를 사용하는 것입니다. 이 두 가지 도구를 사용하여 대량의 데이터를 분산되고 신뢰할 수있는 방식으로 집계 할 수 있습니다. 뿐만 아니라 이러한 도구를 사용하여 Hadoop 클러스터에 직접 데이터를 수집 할 수 있습니다. 소스에서 클러스터로 데이터를 가져올 사용자 정의 소스를 작성하는 것과 같은 작업을해야 할 수도 있습니다.

HTH

+0

감사! 나는 Flume과 Chukwa를 살펴볼 것입니다. – Shobit

+0

당신은 오신 것을 환영합니다. – Tariq

관련 문제