2012-08-22 2 views
0

파이썬을 사용하여 Hadoop에서 대량의 피클링 된 데이터를 처리하려고합니다. 내가 뭘 하려는지 내 데이터를 큰 파일의 값으로 키 (파일 ID)와 압축 피클로 표현하는 것입니다.특정 문자가없는 압축 데이터의 ASCII 표현

내가 hadoop으로 처리하고자하는 파일에 ascii로 이진 코드를 넣으려고하면 (\ 키와 값) 구조를 방해하는 '\ t'와 '\ n'값이 많이 생깁니다. hadoop 파일.

내 질문은 : 어떻게 파이썬을 사용하여 일부 데이터를 압축하고 특정 문자 (예 : '\ t'및 '\ n')를 피하는 ASCII 파일의 문자열로 나타낼 수 있습니까?

내 접근 방식이 본질적으로 유효하지 않습니까?

정말 도움이됩니다.

답변

0

base64 모듈을 사용하여 피클 링 된 개체를 base64으로 변환 할 수 있습니다.

0

압축의 경우 zlib 또는 bz2 모듈을 사용할 수 있습니다. 표현을 위해 base64 모듈을 사용할 수 있습니다.

관련 문제