2016-06-14 2 views
1

나는 PutHBaseJSon 프로세서를 사용하여 hdfs 위치에서 데이터를 가져 와서 hbase에 넣습니다. hdfs 위치에있는 데이터는 아래 형식과 같으며이 파일은 단일 파일입니다. I는 PutHBaseJSon 프로세서를 실행할 때Apache-Nifi의 PutHBaseJSon 프로세서

{"EMPID": "17", "EMPNAME": "b17", "DEPTID": "DNA"}    
{"EMPID": "18", "EMPNAME": "b18", "DEPTID": "DNA"} 
{"EMPID": "19", "EMPNAME": "b19", "DEPTID": "DNA"} 

, 단지 첫 번째 행을 페치 및 I 작성한 HBase를 테이블에 넣고있다. 이 프로세서를 사용하여 해당 파일에있는 모든 행을 가져올 수 있습니까? 또는 단일 파일의 모든 레코드를 hbase로 가져 오는 방법은 무엇입니까?

답변

1

PutHBaseJSON은 단일 JSON 문서를 입력으로 사용합니다. HDFS에서 가져온 후에는 SplitText 프로세서를 사용하여 줄 수가 1이되면 각 JSON 문서를 단일 흐름 파일로 가져올 수 있습니다.

단일 HDFS 파일에 수백만 개의 JSON 레코드가있는 경우 2 단계 분할을 수행해야합니다. 첫 번째 SplitText는 말 수가 10,000으로 분할되어야하고 두 번째 SplitText는이를 1 줄로 분할해야합니다 마다.