클라우드 ML : 동일한 데이터에 대해 취한 다양한 교육 시간

교육용으로 Google Cloud ML을 사용하고 있습니다. 나는 동일한 데이터에 대해 훈련 직무가 완료되기까지 걸린 시간을 관찰하는 독특한 행동을 관찰한다. 필자는 클라우드 ML 콘솔의 CPU 및 메모리 사용률을 분석하여 두 경우 (7 분 및 14 분)에서 매우 유사한 사용률을 보았습니다. 서비스가 완료 될 때까지 일관성없는 시간이 걸리는 이유는 누구에게 알려줄 수 있습니까? 두 경우 모두 동일한 매개 변수와 데이터를 가지고 있으며 PREPARING 단계에서 보낸 시간이 두 경우 모두 거의 동일 함을 확인했습니다. 동일한 프로젝트에서 여러 개의 독립적 인 교육 일자리를 동시에 예약하는 것이 중요합니다. 그렇다면 그 배후에있는 이론적 근거를 알고 싶습니다. 도움을 주시면 대단히 감사하겠습니다.클라우드 ML : 동일한 데이터에 대해 취한 다양한 교육 시간

출처

2017-12-26 Fayaz Ahmed

교육 처리량을 요약으로 기록합니까? 그렇다면 TensorBoard의 작업을 보면 시간이 오래 걸리는 작업에서 어떤 일이 발생하는지 알 수 있습니다. –

예. 요약을 처리하는 tensorflow의 inbuilt Estimator 클래스를 사용하고 있습니다. 나는 tensorboard를 통해 그들을 보았지만 어떤 실행이 다른 것보다 오래 걸리는 이유를 알아 내는데 도움이 될 수있는 메트릭을 찾았는지 확실하지 않았습니다. 내가 찾고자하는 정확한 측정 항목을 가리킬 수 있다면 매우 유용 할 것입니다. TIA. –

가장 쉬운 방법은 더 많은 로깅을 추가하여 시간이 소비 된 곳을 검사하는 것입니다. TensorBoard를 사용하여 교육 진행 상황을 검사 할 수도 있습니다. 여러 작업 간에는 VM 공유가 없기 때문에 동시 작업으로 인해 발생하지는 않습니다.

또한 작업 시간은 작업이 실행 중 상태가 된 시점부터 측정해야합니다. 작업 시작 대기 시간은 콜드 또는 웜 스타트에 따라 다릅니다 (예 : 이전 작업 실행 VM을 잠시 동안 유지합니다).

출처

2017-12-27 23:13:32

로깅을 추가했는데 작업이 '실행 중'인 경우에도 내 메인 메서드의 첫 번째 로그 (내 트레이너 패키지의 첫 번째 문)가 작업이' RUNNING' 상태가됩니다. '러닝 (RUNNING) '상태가 정확히 무엇을 의미하는지 알려주실 수 있습니까? 패키지가 실행을 시작했는지 (이 경우에는 보이지 않음) 또는 트레이너 패키지가 실행되기 전에 실행중인 상태에서 수행되는 추가 단계가 있습니까? –

RUNNING은 사용자 작업 컨테이너가 실행 중 상태에 있음을 의미하지만 catch는 사용자 코드를 실행하기 전에 실행 프로그램 스크립트를 실행하면서 사용자 코드 실행이 아직 시작되지 않았을 수 있다는 것을 의미합니다. [email protected]을 통해 프로젝트 번호와 함께 빠르고 느린 작업에 대한 ID를 공유 할 수 있습니까? –

설명해 주셔서 감사합니다. 요청한대로 작업 ID를 우편으로 보내 왔습니다. –

클라우드 ML : 동일한 데이터에 대해 취한 다양한 교육 시간

답변

관련 문제