2017-12-26 1 views
0

교육용으로 Google Cloud ML을 사용하고 있습니다. 나는 동일한 데이터에 대해 훈련 직무가 완료되기까지 걸린 시간을 관찰하는 독특한 행동을 관찰한다. 필자는 클라우드 ML 콘솔의 CPU 및 메모리 사용률을 분석하여 두 경우 (7 분 및 14 분)에서 매우 유사한 사용률을 보았습니다. 서비스가 완료 될 때까지 일관성없는 시간이 걸리는 이유는 누구에게 알려줄 수 있습니까? 두 경우 모두 동일한 매개 변수와 데이터를 가지고 있으며 PREPARING 단계에서 보낸 시간이 두 경우 모두 거의 동일 함을 확인했습니다. 동일한 프로젝트에서 여러 개의 독립적 인 교육 일자리를 동시에 예약하는 것이 중요합니다. 그렇다면 그 배후에있는 이론적 근거를 알고 싶습니다. 도움을 주시면 대단히 감사하겠습니다.클라우드 ML : 동일한 데이터에 대해 취한 다양한 교육 시간

+0

교육 처리량을 요약으로 기록합니까? 그렇다면 TensorBoard의 작업을 보면 시간이 오래 걸리는 작업에서 어떤 일이 발생하는지 알 수 있습니다. –

+0

예. 요약을 처리하는 tensorflow의 inbuilt Estimator 클래스를 사용하고 있습니다. 나는 tensorboard를 통해 그들을 보았지만 어떤 실행이 다른 것보다 오래 걸리는 이유를 알아 내는데 도움이 될 수있는 메트릭을 찾았는지 확실하지 않았습니다. 내가 찾고자하는 정확한 측정 항목을 가리킬 수 있다면 매우 유용 할 것입니다. TIA. –

답변

0

가장 쉬운 방법은 더 많은 로깅을 추가하여 시간이 소비 된 곳을 검사하는 것입니다. TensorBoard를 사용하여 교육 진행 상황을 검사 할 수도 있습니다. 여러 작업 간에는 VM 공유가 없기 때문에 동시 작업으로 인해 발생하지는 않습니다.

또한 작업 시간은 작업이 실행 중 상태가 된 시점부터 측정해야합니다. 작업 시작 대기 시간은 콜드 또는 웜 스타트에 따라 다릅니다 (예 : 이전 작업 실행 VM을 잠시 동안 유지합니다).

+0

로깅을 추가했는데 작업이 '실행 중'인 경우에도 내 메인 메서드의 첫 번째 로그 (내 트레이너 패키지의 첫 번째 문)가 작업이' RUNNING' 상태가됩니다. '러닝 (RUNNING) '상태가 정확히 무엇을 의미하는지 알려주실 수 있습니까? 패키지가 실행을 시작했는지 (이 경우에는 보이지 않음) 또는 트레이너 패키지가 실행되기 전에 실행중인 상태에서 수행되는 추가 단계가 있습니까? –

+0

RUNNING은 사용자 작업 컨테이너가 실행 중 상태에 있음을 의미하지만 catch는 사용자 코드를 실행하기 전에 실행 프로그램 스크립트를 실행하면서 사용자 코드 실행이 아직 시작되지 않았을 수 있다는 것을 의미합니다. [email protected]을 통해 프로젝트 번호와 함께 빠르고 느린 작업에 대한 ID를 공유 할 수 있습니까? –

+0

설명해 주셔서 감사합니다. 요청한대로 작업 ID를 우편으로 보내 왔습니다. –

관련 문제