input-split

2열

1답변

MapReduce : 2 개의 블록이 다른 노드에 퍼져있을 때 입력 분할이 어떻게 이루어 집니까?

다음 wiki를 읽었지만 여전히 한 가지를 명확히 할 수 없습니다. https://wiki.apache.org/hadoop/HadoopMapReduce 말, 나는이 개 HDFS 블록으로 생겼와 블록은 물리적으로 2 개의 다른 컴퓨터에 저장되어 큰 파일이 있습니다. 두 개의 블록을 모두 로컬로 호스팅하는 클러스터에 이러한 노드가 없다고 가정하십시오. Text

1열

1답변

제한 범위를 가진 Python 입력 분할

var1,var2 = input("Enter two digits a and b (0-9):").split(' ') while True: if (0 <= var1 <= 9) and (0 <= var2 <= 9): result = var1+var2 print("The result is: %r." %result) 나는이 코드를

0열

1답변

위치가 입력 계산되는 방법에

을 분할 "하둡 - 확실한 가이드", 그것은 말한다 ->이 작업을 실행하는 클라이언트가 getSplits을 (호출하여 작업의 분할을 계산), 다음은 JobTracker로 전송 이 회사는 스토리지 위치를 사용하여 맵 작업을 예약하여 작업 추적자에서 처리합니다. public abstract class InputSplit { public abstract lon

0열

1답변

jackson jsonparser가 파손 된 JSON에서 구문 분석을 다시 시작합니다.

나는 Jackson을 사용하여 Hadoop의 JSON을 처리합니다. 즉, 블록 단위로 잘라낸 큰 파일입니다 (제 문제는 128M이지만 중요한 것은 아닙니다). 효율성을 위해 스트리밍이 필요합니다 (전체 트리를 메모리에 구축 할 수 없음). JsonParser와 ObjectMapper를 함께 사용하여 입력 내용을 읽습니다. 현재 splittable이 아닌 사

2열

2답변

Hadoop MapReduce에서 이진 파일 용 사용자 정의 InputFormat 및 RecordReader 만들기

다음과 같은 이진 형식으로 작성된 큰 시계열 데이터 파일을 처리하는 M/R 작업을 작성했습니다 (여기에는 가독성을 위해 새 행, 실제 데이터) 물론, 연속 : 타임 스탬프는 단순히 제 2 바이트에 의한 식별과 같은 8 바이트 구조체이다 TIMESTAMP_1---------------------TIMESTAMP_1 TIMESTAMP_2**********TI

1열

1답변

Hadoop FileSplit reading

FileSplit 개체를 사용하는 클라이언트 응용 프로그램이 해당 파일에서 실제 바이트를 읽는 것으로 가정합니다. -1 FileSplit split = ... // The FileSplit reference FileSystem fs = ... // The HDFS reference FSDataInputStream fsin = fs.ope

0열

1답변

MapReduce 기본 사항

텍스트 파일의 크기가 300MB이고 크기가 128MB입니다. 총 3 블록 128 + 128 + 44MB가 생성됩니다. 수정하십시오 - 맵 축소 기본 입력 분할은 구성 할 수있는 128MB의 블록 크기와 같습니다. 이제 레코드 판독기는 각 분할을 읽고 키가 오프셋되고 값이 한 줄인 키 값 쌍을 만듭니다. (TextInputFormat) 질문 : 내 블록의 마