2012-08-18 3 views
0

데이터 세트를보고 있는데이 원시 데이터가 모두 hadoop 클러스터로 전송되는 방법에 대해 궁금합니다. 나는 하늘빛에 hadoop을 사용하고있다. 아파치 하둡 윈도우 Azure에 : 당신은 윈도우 Azure 스토리지에 (등 구조화되지 않은 데이터 ..) 데이터 세트를 위치하게 한 후, 하둡 클러스터에서 블로그 게시물을Hadoop의 원시 데이터 액세스

확인을 그것을 액세스 할 수 있습니다 윈도우 Azure에서

답변

0

등등 설정합니다. 데이터 액세스를위한 자체 Restful API가 있습니다.
그 중 가장 간단한 방법은 관심있는 데이터를 hadoop 클러스터에 다운로드하거나 을 S3에 다운로드 한 다음 Amazon EC2에서 EMR 또는 자체 클러스터를 사용하는 것입니다.
(data.seattle.gov) 관련 쿼리 기능이있는 경우 데이터 참조를 입력으로 사용하여 hadoop 클러스터의 요청에 따라 데이터를 쿼리 할 수 ​​있습니다. 이러한 쿼리에서 매우 심각한 데이터 감소를 수행하는 경우에만 작동 할 수 있습니다. 그렇지 않으면 네트워크 대역폭으로 인해 성능이 제한됩니다.

+0

감사합니다. 나는 단순한 용어로 조각을 이해하지만 모든 것을 연결하는 것 같은 느낌이 든다. 아직도 나를 협박한다. –

0

에 연결 하둡 클러스터에서 윈도우 Azure 스토리지 :

http://blogs.msdn.com/b/avkashchauhan/archive/2012/01/05/apache-hadoop-on-windows-azure-connecting-to-windows-azure-storage-your-hadoop-cluster.aspx

당신은 또한 애저 마켓 플레이스 예에서 데이터를 얻을 수 있습니다 모양의 정부 데이터 data.seattle.gov는 자기가 공용 ​​클라우드의 상단에 내장되지 않은 데이터 서비스를 포함처럼 보이는

http://social.technet.microsoft.com/wiki/contents/articles/6857.how-to-import-data-to-hadoop-on-windows-azure-from-windows-azure-marketplace.aspx