Hadoop에서 ~ 300GB JSON 파일을 처리하려고합니다. JSON은 데이터가 포함 된 단일 문자열로 구성됩니다. 이제 Google의 GSON을 사용하여 JSON 문자열을 파싱하려면 Hadoop이 JSON이 논리적으로 나눌 수 없으므로 전체 노드를 단일 노드에 배치해야합니다.하둡의 JSON 분산 처리
다른 노드에서 병렬로 처리해야하는 경우 어떻게 파일을 분할합니까 (논리적으로 데이터를 볼 수있는 파티션을 만들 수 있습니까). 파일을 HDFS 자체에로드하기 전에 파일을 중단해야합니까? JSON은 한 번만 한 머신 (또는 노드)에서 파싱해야한다는 것이 절대적으로 필요한가요?
http://stackoverflow.com/questions/9942483/hadoop-for-json-files에서 답변을 살펴보십시오. dzone 기사에서는 Hadoop의 XML 및 JSON 처리에 대한 통찰력을 제공합니다. – harpun