2012-05-26 4 views
3

콘도르 클러스터에서 작업을 실행하고 있지만 일부는 유휴 상태에서 멈추어 서 시작되는 것처럼 보이지 않습니다. 수동으로 condor_wait -wait n logfile을 수행하고 나서 condor_rm을 수행하는 것보다 짧은 시간에 매달린 작업을 종료하는 데 더 우아한 (자동, 내장 된) 방법이 있습니까?유휴 작업에 대한 Condor 시간 초과

반대로 이러한 작업은 단검에 있기 때문에 나중에 작업을 실행할 수 있도록 단검에서 작업을 시간 초과 할 수 있습니까?

답변

2

너무 오래 유휴 상태 (이 예제에서는 24 시간) 후에 작업이 자동으로 제거되게하는 두 가지 방법이 있습니다.

  1. 는 작업에 대한 제출 파일에 다음을 넣어 :

    periodic_remove = JobStatus == 1 & & currentTime을-EnteredCurrentStatus> 3600 * 24

  2. 또는 콘도르 구성에 다음을 넣어 제출 시스템의 파일 :

    SYSTEM_PERIODIC_REMOVE = JobStatus == 1 & & CurrentTime-EnteredCurrentSt atus> 3600 * 24

물론 작업이 유휴 상태로 남아있는 이유를 이해하는 것이 좋습니다. 이를 위해 condor_q -analyze jobid이 도움이 될 수 있습니다.

관련 문제