2
HDFS 파일이 textfile
이거나 avro
, ORC
등의 이진 파일이 있는지 확인하는 도구 또는 유틸리티가 있습니까?HDFS 파일에 바이너리 데이터가 있는지 여부를 확인하는 방법은 무엇입니까?
파일 확장명에 답장을 보낼 수 없습니다. 정확한 유형을 알고 싶지 않습니다. 데이터가 이고 읽을 수있는 데이터가인지 알아야합니다. 같은 읽을 수없는 파일의 경우
HDFS 파일이 textfile
이거나 avro
, ORC
등의 이진 파일이 있는지 확인하는 도구 또는 유틸리티가 있습니까?HDFS 파일에 바이너리 데이터가 있는지 여부를 확인하는 방법은 무엇입니까?
파일 확장명에 답장을 보낼 수 없습니다. 정확한 유형을 알고 싶지 않습니다. 데이터가 이고 읽을 수있는 데이터가인지 알아야합니다. 같은 읽을 수없는 파일의 경우
하자 bash
그것을
hdfs dfs -cat /file/on/hdfs | head -15 > tmp ; file -i tmp ; rm tmp
parquet
등이 얻을 것이다 :
tmp: application/octet-stream; charset=binary
@dev을 ツ'TMP : 텍스트 일반; charset = ascii' 나는 TXT 파일을 가지고있다. 중요한 것은 아니지만 어떤 버전을 사용하고 있습니까? – philantrovert
텍스트 데이터가있는 작업 벌금, 또는 구분 기호로 탭. 그러나 내 텍스트 데이터는 ** CTRL^A ** (기본 하이브 구분 기호 _)에 의해 구분됩니다. 그것은'tmp : application/octet-stream;을 반환하고있다. charset = binary'라고 표시합니다. –
기술적으로는 인쇄 할 수없는 문자입니다. – philantrovert