다중 ps 및 작업자가있는 다중 GPU 클러스터에서 TensorFlow의 그래프 복제를 실험하고 싶습니다. CIFAR-10 multi GPU example은 단일 시스템에서 그래프 동기 복제를 보여줍니다. example trainer program for between-graph training과 같이 사용할 수있는 예제가 있습니까?TensorFlow 그래프 복제 예제
2
A
답변
8
일반적으로 그래프 간 복제는 (현재 구현 된) 그래프 내 복제보다 확장 성이 높기 때문에 분산 형 트레이닝을위한 그래프 내 복제 간을 선호합니다. 그래프 내 복제의 주요 문제점은 현재 네트워크에 대한 그래프 구조의 여러 복사본을 작성하고 단일 위치 (즉, 분산 마스터)에서 구체화해야한다는 것입니다. 수백 개의 복제본이있을 때 마스터가 병목 현상을 일으킬 수 있습니다. 반대로 그래프 간 복제에서 각 복제본은 로컬로 실행되는 그래프 복사본 만 가지고 있습니다.
그래프 간 복제의 단점은 단일 트레이닝 작업으로 단일 루프가 아닌 여러 개의 트레이닝 루프가 동기화되므로 동기식 트레이닝이 더 어려워지는 것입니다. distributed Inception trainer에 사용 된 tf.train.SyncReplicasOptimizer
은 그래프 간 복제와 함께 동기 훈련을 수행하는 한 가지 방법을 제공합니다.
그러나 그래프 복제를 시도하려면 CIFAR-10 예제에서 the line that assigns a device to each of the towers을 수정하여이를 수행 할 수 있습니다. 동일한 프로세스에서 다른 GPU에 타워를 할당하는 대신 다른 작업자 태스크에 의 다른 GPU에 타워를 할당 할 수 있습니다. 예 :
worker_devices = ["/job:worker/task:0/gpu:0", ..., "/job:worker/task:7/gpu:0"]
for worker_device in worker_devices:
with tf.device(worker_device):
# Execute code for building the model replica.
관련 문제
- 1. 텐서 흐름 그래프 복제
- 2. Tensorflow 그래프 크기
- 3. Tensorflow - 다른 길이의 예제 먹이기
- 4. 기존 Tensorflow 그래프 (VGG) 조정
- 5. TensorFlow : 그래프 정의에 왜곡 저장
- 6. cq5 역방향 복제 예제
- 7. C++ 그래프 예제
- 8. qwt 그래프 플롯 예제
- 9. SceneJS 그래프 예제
- 10. Tensorflow Wide & Deep tutorial 예제 일괄 처리
- 11. TensorFlow 자신의 이미지를 먹는 MNIST 예제
- 12. Tensorflow - L2 정규화 손실 추가 간단한 예제
- 13. Tensorflow : 그래프 작성 후 실행되는 그래프 문은 무엇입니까?
- 14. Android 용 Tensorflow 퀀 타이즈 그래프
- 15. Tensorflow : 클래스에서 그래프 만들기 및 실행 중
- 16. Tensorflow 또는 Theano를 사용하는 순환 계산 그래프
- 17. TensorFlow : 그래프 내 LSTM 상태 저장/업데이트
- 18. 예제 그래프 데이터베이스가 작동하지 않습니다.
- 19. Chart.js - 다른 위치로 그래프 복제
- 20. googleVis, knitr, Rpubs, 복제 예제, knitr 옵션?
- 21. Tensorflow : 평가
- 22. C++ 부스트 그래프 라이브러리 - Dijkstra 예제
- 23. D3 메모리 개체를 사용하는 그래프 예제
- 24. 파일에 대한 교육을받은 TensorFlow 그래프에 개별 예제 제공?
- 25. tensorflow 꽃 예제 웹 사이트를 구축하는 방법은 무엇입니까?
- 26. Tensorflow
- 27. TensorFlow
- 28. BFS (무향)를 사용하여 그래프 복제
- 29. 다른 인공 신경망 프레임 워크 (ffnet, tensorflow)로 결과 복제
- 30. torch nn.DepthConcat의 tensorflow 버전
안녕하세요. 복제물은 무엇입니까? 고마워! –
[Distributed Machine Learning 용 매개 변수 서버] (https://www.cs.cmu.edu/~muli/file/ps.pdf)의 논문에서 복제와 관련이 있습니까? –
이 기사 (https://clindatsci.com/blog/2017/5/31/distributed-tensorflow)는 보완 자료로 유용합니다. –