2016-09-23 5 views
0

배경: 로컬 파일을 HDFS 대

데이터가 필요하므로

S3 스트리밍 (AFAIK)를 지원하지 않습니다 약간의 트위스트와 함께 자바를 사용하여 S3에 파일을 업로드

간단한 노년 문제 업로드하기 전에 적절한 크기의 파일로 그룹화하십시오. 그런 일이 가능하다면

위에서 언급 한 이러한 임시 파일을 만드는 동안 위치가 일부 지정된 디렉토리 HDFS에서 로컬

  • 에서 로컬
    1. 를 우려까지 일부 옵션이 있습니다 (난 몰라 하둡 클러스터의 HDFS으로 하둡에서 심지어 H)
    2. 을 알고

    질문

    1. 어느 것이 더 빠를 것 같습니까?
    2. HDFS (로컬 또는 클러스터) 대 로컬 FS, HDFS는 S3 형식에 더 가깝습니다.

    기술 및 인프라

    EC2, 리눅스, 자바

  • 답변

    1

    로컬 디스크 공간이 충분한 지, 그냥 로컬 그것을 할. 그렇지 않으면 HDFS에 필요한 저장소에 데이터를 병합 한 다음 업로드 할 수 있습니다. 그러나 HDFS가 첫 번째 휴양지가되어서는 안됩니다.

    +0

    HDFS를 권장하지 않는 이유는 무엇입니까? – Confused

    +0

    HDFS는 실제로 이것을 위해 설계되지 않았으므로 가능한 경우 디스크에서 파일 조작을 모두하는 것이 더 빠릅니다. –

    +0

    예, 로컬 FS를 사용하고 S3 최종 압축 파일에 업로드했습니다. – Confused

    관련 문제