2017-01-21 1 views
0
나는 이런 하나 하나 (각 32가)에서 (14) 프로세서를 요청하고

: 14-보다 더 낮은 거의 항상 작동 ppn,하지만 일단 번호PBS 내 작업을 중단 유지

#PBS -l nodes=1:ppn=14 

#PBS -l walltime=12:00:00 

와 함께 작업이 실행을 시작하고 즉시 종료됩니다. tracejob는 유일하게 인정입니다 :

tracejob 14753.hpc2 

Job: 14753.hpc2 

01/21/2017 11:12:36 L Considering job to run 
01/21/2017 11:12:36 L Job run 
01/21/2017 11:12:36 M Resource_List.place = scatter 
01/21/2017 11:12:36 M make_cpuset, vnode hpc2[0]: hv_ncpus (2) > mvi_acpus (0) (you are not expected to understand this) 
01/21/2017 11:12:36 M start_exec, new_cpuset failed 
01/21/2017 11:12:36 M kill_job 
01/21/2017 11:12:36 M hpc2 cput= 0:00:00 mem=0kb 
01/21/2017 11:12:37 M Obit sent 
01/21/2017 11:12:37 M copy file request received 
01/21/2017 11:12:37 M staged 2 items out over 0:00:00 
01/21/2017 11:12:37 M delete job request received 
01/21/2017 11:12:37 M delete job request received 
01/21/2017 11:12:38 M no active tasks 
01/21/2017 11:12:38 M delete job request received 

나는 시간이 성공적으로 이상의 CPU 요청에, 그래서 완전히 결정이 아니다. 이 디버깅 할 수있는 방법이 있습니까?

사이드 노드로서, 둘 이상의 노드를 요청하는 작업은 큐에 영원히 앉아 있고 절대로 시작되지 않습니다. 관련이 있는지는 알 수 없습니다.

+0

사용중인 리소스 관리자 및 버전은 무엇입니까? 스케줄러에 대해서도 같은 질문입니다. – clusterdude

답변

0

"qrun"을 수행하고 강제로 지정된 vnode에서이 작업을 시작하려고합니까?

그렇지 않은 경우 vnode hpc2 [0]의 pbsnodes 데이터를 공유 할 수 있습니까?

가능한 해결책으로 엄마를 다시 시작하거나 엄마를 독점으로 설정하십시오 (당연히 권한있는 사용자 여야합니다).

관련 문제