1

내 컴퓨터에서 동일한 운영 체제와 Python 버전을 사용하여 this tensorflow distributed tutorial을 시도하고 있습니다. official distributed tutorial을 시도 할 때 Distributed TensorFlow 예제가 TensorFlow 0.9에서 작동하지 않습니다.

E0629 10:11:01.979187251 15265 tcp_server_posix.c:284]  bind addr=[::]:2222: Address already in use 
E0629 10:11:01.979243221 15265 server_chttp2.c:119]  No address added out of total 1 resolved 
Traceback (most recent call last): 
File "worker0.py", line 7, in <module> 
task_index=0) 
File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/training/server_lib.py", line 142, in __init__ 
server_def.SerializeToString(), status) 
File "/usr/lib/python2.7/contextlib.py", line 24, in __exit__ 
self.gen.next() 
File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/errors.py", line 450, in raise_exception_on_not_ok_status 
pywrap_tensorflow.TF_GetCode(status)) 
tensorflow.python.framework.errors.InternalError: Could not start gRPC server 

내가 비슷한 오류가 발생합니다 : 그때 내가 다른 터미널을 열고 두 번째 스크립트를 실행하고 다음과 같은 오류가 첫 번째 스크립트를 작성하고 터미널에서 실행합니다.

편집 : 나는 같은 패키지가 다른 컴퓨터에이 시도 지금 나는 다음과 같은 오류 로그 수 :

E0629 11:17:44.500224628 18393 tcp_server_posix.c:284]  bind addr=[::]:2222: Address already in use 
E0629 11:17:44.500268362 18393 server_chttp2.c:119]  No address added out of total 1 resolved 
Segmentation fault (core dumped) 

무슨 문제가 될 수 있습니까?

답변

3

두 포트 모두 동일한 포트 번호 (2222)를 사용하고있는 것이 문제 일 수 있습니다. 각 포트 번호는 특정 호스트의 한 프로세스에서만 사용할 수 있습니다. 그것은 "bind addr = [::] : 2222 : Address already in use"오류를 의미합니다.

클러스터 사양에 "localhost : 2222"가 두 번 있거나 두 작업에 동일한 task_index가 지정되어 있다고 생각합니다.

도움이 되었기를 바랍니다.