Hadoop HDFS에서 수 기가 바이트의 텍스트 파일 디렉터리를 검색하려고합니다. 나는 이것을 할 수있다'hadoop hdfs -get'파일 압축
hadoop hdfs -get /path/to/directory/* .
그러나 Hadoop 클러스터에 대한 나의 링크는 약 1MB/s이므로, 꽤 오래 걸린다. 대부분의 텍스트 파일과 마찬가지로이 파일들은 매우 잘 압축되므로 다운로드를 위해 파일을 압축하고 싶습니다. hadoop hdfs -get
명령이 전송 중에 자동으로 압축됩니까 (http 및 기타 많은 프로토콜이 수행 할 수있는 방식)?
그렇지 않은 경우 압축을 사용하여 파일을 가져 오는 가장 간단한 방법은 무엇입니까? 중요하다면 클러스터에서 CDH 4.5.0을 실행 중이며 클러스터에 대한 관리자 권한이 없습니다.
나는 this question을 찾았지만 HDFS에 보관하기 위해 파일을 압축하는 것에 대해 이야기하고 있으며 압축 된 파일을 생성, 가져 오지 않고 삭제하지 않고 전송중인 바이트를 압축하는 방법이있는 것 같습니다 . 전형적인 Hadoop 사용법을 이해 한 결과, 매우 큰 텍스트 파일을 가져오고 퍼팅하는 것이 전형적인 사용 사례가되어야하며, 텍스트 파일이 잘 압축된다는 것이 잘 알려져 있습니다.
나는 또한 이것이 의도적으로 Hadoop에 남아 있거나 향후 릴리스에서 추가 될 것으로 예상되는 문서화 된 누락 된 기능임을 나타내는 대답을 수락합니다.
일부 압축 량이'hadoop hdfs -get' 및'hadoop hdfs -put' 명령 또는 일부 동등한 명령에 내장되어 있지 않은 것에 놀랐습니다. 많은 사람들이 GB 또는 TB 범위의 파일을 업로드/다운로드해야합니까? –
MapR 배포판에는 압축 기능이 내장되어 있지만 다른 배포판이나 코어 hadoop이 현재로서는이 기능을 가지고 있다고 생각하지 않습니다. MapR에 대한 자세한 내용 http://answers.mapr.com/questions/38/what-compression-algorithm-does-mapr-use – Sudarshan