교육용으로 Google Cloud ML을 사용하고 있습니다. 나는 동일한 데이터에 대해 훈련 직무가 완료되기까지 걸린 시간을 관찰하는 독특한 행동을 관찰한다. 필자는 클라우드 ML 콘솔의 CPU 및 메모리 사용률을 분석하여 두 경우 (7 분 및 14 분)에서 매우 유사한 사용률을 보았습니다. 서비스가 완료 될 때까지 일관성없는 시간이 걸리는 이유는 누구에게 알려줄 수 있습니까? 두 경우 모두 동일한 매개 변수와 데이터를 가지고 있으며 PREPARING
단계에서 보낸 시간이 두 경우 모두 거의 동일 함을 확인했습니다. 동일한 프로젝트에서 여러 개의 독립적 인 교육 일자리를 동시에 예약하는 것이 중요합니다. 그렇다면 그 배후에있는 이론적 근거를 알고 싶습니다. 도움을 주시면 대단히 감사하겠습니다.클라우드 ML : 동일한 데이터에 대해 취한 다양한 교육 시간
답변
가장 쉬운 방법은 더 많은 로깅을 추가하여 시간이 소비 된 곳을 검사하는 것입니다. TensorBoard를 사용하여 교육 진행 상황을 검사 할 수도 있습니다. 여러 작업 간에는 VM 공유가 없기 때문에 동시 작업으로 인해 발생하지는 않습니다.
또한 작업 시간은 작업이 실행 중 상태가 된 시점부터 측정해야합니다. 작업 시작 대기 시간은 콜드 또는 웜 스타트에 따라 다릅니다 (예 : 이전 작업 실행 VM을 잠시 동안 유지합니다).
로깅을 추가했는데 작업이 '실행 중'인 경우에도 내 메인 메서드의 첫 번째 로그 (내 트레이너 패키지의 첫 번째 문)가 작업이' RUNNING' 상태가됩니다. '러닝 (RUNNING) '상태가 정확히 무엇을 의미하는지 알려주실 수 있습니까? 패키지가 실행을 시작했는지 (이 경우에는 보이지 않음) 또는 트레이너 패키지가 실행되기 전에 실행중인 상태에서 수행되는 추가 단계가 있습니까? –
RUNNING은 사용자 작업 컨테이너가 실행 중 상태에 있음을 의미하지만 catch는 사용자 코드를 실행하기 전에 실행 프로그램 스크립트를 실행하면서 사용자 코드 실행이 아직 시작되지 않았을 수 있다는 것을 의미합니다. [email protected]을 통해 프로젝트 번호와 함께 빠르고 느린 작업에 대한 ID를 공유 할 수 있습니까? –
설명해 주셔서 감사합니다. 요청한대로 작업 ID를 우편으로 보내 왔습니다. –
- 1. 클라우드 ML 교육 작업이 일치하는 파일을 찾지 못함
- 2. 클라우드 ML 기능 방법
- 3. 클라우드 ML 교육에서 병목 현상 파악
- 4. Google 클라우드 플랫폼 교육 문제
- 5. 구글 클라우드 ML 리콜 손실 : 분산 학습
- 6. 'TensorFlow가 시작될 때까지 기다리는 중'클라우드 ML 교육 작업이 지연되었습니다.
- 7. 매트, 교육 데이터 ml 단위로 opencv
- 8. cnn의 교육 시간 단축
- 9. 클라우드 ML 엔진을 사용하여 야간 TensorFlow 빌드 사용
- 10. 동일한 데이터에 대해 다른 expandableList가있는 여러 단편
- 11. 클라우드 용 Google 클라우드 셸 환경 설정 ML
- 12. 클라우드 ML Tensorflow 및 Cudnn 버전 호환성
- 13. ml 클라우드 교육용 Python 스크립트를 더 많이 제출하는 방법
- 14. ML 재귀 함수에 대해 묻기
- 15. 클라우드 ML CATEGORICAL 매개 변수에 대한 하이퍼 매개 변수 조정
- 16. GROUP_CONCAT()의 동일한 데이터에 대해 동일한 출력이 표시됩니다.
- 17. RSA 암호화를 사용하여 동일한 데이터에 대해 동일한 결과를 얻는 방법
- 18. SVM; 교육 데이터에 목표가 포함되어 있지 않습니다.
- 19. Google 클라우드 항상 동일한 결과 제공
- 20. 레코드가 데이터베이스에 표시되기 위해 취한 총 시간 벤치마킹 JMeter 사용
- 21. 피드 데이터에 대해
- 22. 다양한 몽고 포트 시간
- 23. 다른 시간 문자열에 대해 동일한 ZonedDateTime 수신
- 24. Z3의 동일한 코드에 대해 다른 실행 시간
- 25. 다양한 종류의 데이터에 대한 구조화 레일 모델
- 26. 네트워크 대기 시간 :이 (및 다양한 기타)을 가로 질러왔다
- 27. 동일한 테이블, 다양한 크기?
- 28. 클라우드 저장소의 사용자 데이터에 암시 적으로 액세스
- 29. 동일한 이미지, 다양한 크기 : 피카소로
- 30. Android SDK - 다양한 View 요소의 동일한 속성에 대해 "클래스"만들기
교육 처리량을 요약으로 기록합니까? 그렇다면 TensorBoard의 작업을 보면 시간이 오래 걸리는 작업에서 어떤 일이 발생하는지 알 수 있습니다. –
예. 요약을 처리하는 tensorflow의 inbuilt Estimator 클래스를 사용하고 있습니다. 나는 tensorboard를 통해 그들을 보았지만 어떤 실행이 다른 것보다 오래 걸리는 이유를 알아 내는데 도움이 될 수있는 메트릭을 찾았는지 확실하지 않았습니다. 내가 찾고자하는 정확한 측정 항목을 가리킬 수 있다면 매우 유용 할 것입니다. TIA. –