2013-02-05 2 views
0

나는 파일의 일부를 키로 나타내려는 하둡 맵 축소 프로그램을 사용하고있다. 이것은 일부 분석을 위해 사용하고 싶습니다. 그러나 나는 이것이 성과를 가져 왔다는 것을 알았다. 아무도 텍스트의 큰 덩어리를 사용하는 대안이 있다면 말해 줄 수 있습니다. 다른 형식으로 인코딩 할 수 있습니까? 문자열을 바이트 또는 바이너리 형식으로 변환하여 찾았습니다. 하지만 여전히 정수 데이터 형식으로 저장할 수 없습니다. 나는 그것을 BigInteger로 변환하려고 노력했지만 비슷한 것이 아닌 텍스트를 줄이면 충돌이 일어나기 때문에 헛된 것입니다. 텍스트 데이터 유형을 사용하는 것 외에는 큰 덩어리의 덩어리를 매퍼에서 키로 나타내는 방법.큰 덩어리를 하둡으로 키로 표현하기

답변

0

파일의 길이는 얼마입니까? 서로 키가 얼마나 비슷한가요? 매퍼에서 텍스트의 MD5 해시 (또는 유사)를 키로 사용 해본 적이 있습니까?

+0

친절한 답변을 보내 주셔서 감사합니다. MD5 서명을 사용하여 텍스트를 표현한 후에는 크기가 32 자로 줄어 듭니다. 영숫자 서명의 모든 알파벳을 나타내는 데 정수를 사용하고 모든 텍스트를 정수 유형으로 더 줄이는 것이 좋은 방법입니까? 이것을 일반적인 관행으로 사용할 수 있습니까? 문자열을 정수형으로 변환 한 후에는 Hadoop의 Big Decimal 형식 인 Big Integer 형식으로 표현하는 것이 좋습니다. Big Decimal의 한 가지 형식은 PI 계산을위한 Hadoop 예제 프로그램에서 구현됩니다. – prasanna

+0

MD5 해시는 영숫자입니다. 당신의 질문은 정확히 무엇입니까? – harpun

+0

답변 해 주셔서 감사합니다. 우리가 MD5 서명에서 생성 된 모든 영숫자 문자를 그 안에있는 모든 a-z 문자에 대해서만 더 많은 숫자로 변환하고 Bigdecimal 또는 Biginteger 데이터 형식으로 저장할 수 있는지 알고 싶습니다. – prasanna

관련 문제