2011-04-24 2 views
0

하둡에서 연속 된 두 작업을 비교할 수 있는지 알고 싶습니다. 그렇지 않다면 누구든지 저에게 어떻게 진행할 수 있는지 말해 주시면 고맙겠습니다. 정확히 말하면, 정확하게 두 직업이 한 일을 비교해보고 싶습니다. 이 작업을 수행하는 이유는 Hadoop에서 실행 된 작업의 수에 대한 통계를 동작의 측면에서 비슷하게 만들었 기 때문입니다. 예를 들어 동일한 입력에서 같은 정렬 함수가 몇 번 실행 되었습니까?하둡에서 연속 된 두 작업을 비교하고 싶습니다.

예를 들어 첫 번째 작업이 SortList (A)와 다른 작업이 SortList (A) + Group (result (SortList (A)) 일 경우 Hadoop에 일부 매핑이 저장되어 있는지 궁금합니다. 어쨌든 JobID X-> SortList (A)와 같은 어딘가.

지금까지이 문제는 Hadoop에서 엔트리 포인트를 찾고 작업이 어떻게 생성되었고 어떤 정보가 jobID 및 양식 (코드 형식 또는 일부 설명)을 사용했지만 성공적으로 파악할 수 없었습니다.

답변

0

하둡의 카운터를 시작하는 것이 좋습니다. 자신의 카운터 이름을 정의 할 수 있습니다 (예 : 각 카운터 이름은 작업중인 데이터 세트 임). 정렬을 수행 할 때마다 카운터를 증가시킵니다. 그러나 어떤 데이터 세트를 찾고있는 것이 더 어려운 작업 일 수 있습니다.

여기 내가 찾은 자습서는 다음과 같습니다 http://philippeadjiman.com/blog/2010/01/07/hadoop-tutorial-series-issue-3-counters-in-action/

0

아니요. 하둡 작업은 단지 부작용이있을 수 있으며 일반 파일, hdfs 파일, 또는 데이터베이스가 있습니다. 아무 것도 녹음되어 있지 않습니다. g 그들의 모든 활동. 모든 hadoop은 일정과 데이터 흐름을 관리합니다.

+0

사실, 나는 그것이 작업에 대한 정보의 비트를 유지하지만 그것은 나에 대한 사용의 생각 해달라고 발견했다. 그러나 중요한 것은이 실행을 시작하기 전에 어떻게 든 할 수 있다면입니다. 나는 hadoop의 진입 점이 무엇인지 알 수있다. 그렇다면 내가 필요한 것을 할 수 있도록 코드를 수정하고 싶습니다 ... 당신이 그것에 대해 뭔가를 말할 수 있다면 .. 또한, 당신의 회신에 대해 감사 드리고 싶습니다. 그것은 어느 정도 도움이되었습니다, 적어도 그것을 atleast ... – user722856

+0

Hadoop은 모든 오픈 소스 이후에 있으므로 모든 행을 읽을 수 있습니다. 'entrypoint'는 특정 자바 클래스를 실행하는 hadoop 명령 셸 스크립트 일 것이고, 그걸 벗어 버릴 것이다. – bmargulies

관련 문제