2013-07-16 4 views
0

나는 데이터를 쿼리하기 위해 하이브를 사용하고 있습니다. 문제는이 데이터를 정리해야하고 내 컴퓨터에서 처리하고 처리하기에는 너무 큽니다 (따라서 Hadoop과 Hive 사용). 하이브와 함께 할 수있는 방법이 있습니까? 사용자 정의 함수를 살펴 보았지만 행을 기준으로 동작하므로 데이터를 정리하는 최적의 방법이 아닐 수도 있습니다.하이브로 큰 데이터 정리

감사합니다.

답변

2

MapReduce 프로그램을 사용하여 데이터를 정리해야합니다. 아마 당신의 성능을 향상시킬 감속조차하지 마십시오.

MapReduce 프로그램은 버퍼링 된 파일 판독기와 같이 작동하여 한 번에 한 행의 데이터를 읽습니다. 각 줄에서 청소 작업을 수행 한 다음 쿼리를 위해 하이브 테이블에 클리닝 작업을 삽입 할 수 있습니다.

1

하이브의 도움으로 청소 작업을 수행 할 수없는 경우 mapreduce/pig 만 사용하십시오.

문제가 하이브의 성능이라면 최적화를 시도하십시오. operation.you 나 응답에 대한 distribution cache, map side joins 등 ...

+1

감사를 사용할 수 있습니다

최적화는 청소에 따라 달라집니다. 스트리밍을 사용하여 데이터를 정리했습니다. –