hadoop의 새로운 기능 - HDFS 파일을 청크로 읽으려고합니다. 예를 들어, 한 번에 100 줄을 긋고 매퍼에서 apache OLSMultipleLinearRegression을 사용하여 데이터를 회귀 분석합니다. 내가 여러 줄에 읽어 여기에 표시된이 코드를 사용하고 있습니다 :여러 라인을 읽는 hadoop mapper
public void map(LongWritable key, Text value,Context context) throws java.io.IOException ,InterruptedException
{
String lines = value.toString();
String []lineArr = lines.split("\n");
int lcount = lineArr.length;
System.out.println(lcount); // prints out "1"
context.write(new Text(new Integer(lcount).toString()),new IntWritable(1));
}
내 질문은 : http://bigdatacircus.com/2012/08/01/wordcount-with-custom-record-reader-of-textinputformat/
내 매퍼는 다음과 같이 정의에서 System.out.println에서 lcount == 1 와서 어떻게? 내 파일은 "\ n"으로 구분되며 레코드 판독기에 NLINESTOPROCESS = 3을 설정했습니다. 내 입력 파일 포맷과 같이 내가 한 번에 한 라인을 읽고있다 경우 회귀 API는 여러 개의 데이터 포인트에 걸립니다
이y x1 x2 x3 x4 x5
y x1 x2 x3 x4 x5
y x1 x2 x3 x4 x5
...
내가, 내 다중 회귀 분석을 수행 할 수 없습니다 ... 어떤 도움
주셔서 감사합니다
하둡에서 매퍼에 나오는 데이터 라인으로 라인이다. –