하둡에서 연속 된 두 작업을 비교할 수 있는지 알고 싶습니다. 그렇지 않다면 누구든지 저에게 어떻게 진행할 수 있는지 말해 주시면 고맙겠습니다. 정확히 말하면, 정확하게 두 직업이 한 일을 비교해보고 싶습니다. 이 작업을 수행하는 이유는 Hadoop에서 실행 된 작업의 수에 대한 통계를 동작의 측면에서 비슷하게 만들었 기 때문입니다. 예를 들어 동일한 입력에서 같은 정렬 함수가 몇 번 실행 되었습니까?하둡에서 연속 된 두 작업을 비교하고 싶습니다.
예를 들어 첫 번째 작업이 SortList (A)와 다른 작업이 SortList (A) + Group (result (SortList (A)) 일 경우 Hadoop에 일부 매핑이 저장되어 있는지 궁금합니다. 어쨌든 JobID X-> SortList (A)와 같은 어딘가.
지금까지이 문제는 Hadoop에서 엔트리 포인트를 찾고 작업이 어떻게 생성되었고 어떤 정보가 jobID 및 양식 (코드 형식 또는 일부 설명)을 사용했지만 성공적으로 파악할 수 없었습니다.
사실, 나는 그것이 작업에 대한 정보의 비트를 유지하지만 그것은 나에 대한 사용의 생각 해달라고 발견했다. 그러나 중요한 것은이 실행을 시작하기 전에 어떻게 든 할 수 있다면입니다. 나는 hadoop의 진입 점이 무엇인지 알 수있다. 그렇다면 내가 필요한 것을 할 수 있도록 코드를 수정하고 싶습니다 ... 당신이 그것에 대해 뭔가를 말할 수 있다면 .. 또한, 당신의 회신에 대해 감사 드리고 싶습니다. 그것은 어느 정도 도움이되었습니다, 적어도 그것을 atleast ... – user722856
Hadoop은 모든 오픈 소스 이후에 있으므로 모든 행을 읽을 수 있습니다. 'entrypoint'는 특정 자바 클래스를 실행하는 hadoop 명령 셸 스크립트 일 것이고, 그걸 벗어 버릴 것이다. – bmargulies