2016-07-18 1 views
1

저는 교육용과 검증 용으로 2 개의 데이터 입력 파이프 라인을 갖춘 심층 네트워크를 교육하고 있습니다. 병렬 데이터 읽기에는 각각 shuffle_batch_joinbatch_join을 사용합니다. 네트워크에서 사용되는 데이터 스트림은이 두 파이프 라인 위에 tf.cond 연산을 사용하여 결정됩니다.이 값은 is_training 자리 표시 자로 제어되며 훈련 반복을 위해 true로 설정되고 유효성 검사를 수행 할 때는 false로 설정됩니다. 교육 자료를 읽는 데 4 개의 스레드가 있고 유효성 검사를 위해 1 개의 스레드가 있습니다.tf.train.batch_join queue leak?

그러나 대기열 요약을 tensorboard에 추가 한 후 유효성 검사 큐의 요약 (전체 큐의 일부만 표시)이 교육 중 한 지점에서 0이 아니며 0으로 다시 떨어지는 것을 관찰했습니다. 유효성 검사가 1K 반복 후에 만 ​​실행되고 그 데이터 포인트는 그 시점에서만 제거되어야하므로 매우 이상하게 보입니다. 비슷한 경험을 가진 사람이 있습니까? 아니면 어떤 일이 벌어지고 있을지 생각해보십시오.

답변