2016-11-02 6 views
0

밤새 신경 네트워크를 훈련 중이었고 추락했습니다. 질문이 두 개 있습니다.TF 훈련 중에 손상된 기록

  1. 이 오류의 원인은 무엇입니까?
  2. 어떻게 다시 발생하지 않도록 할 수 있습니까?

2 개의 주요 에러은 다음

  1. ERROR : tensorflow : QueueRunner 예외 : 52,284,962,154
  2. DataLossError (역 추적을 위해 상기 참조)에 손상 기록 : 손상된 기록 52,284,962,154
에서

편집

동일한 코드가 사용되었습니다 다른 컴퓨터에서 약 6 시간 후에 같은 오류가 발생합니다. 번호 52284962154는 동일했습니다.

+0

분명히 버그 같아 보입니다. [github에서 문제를 열 ​​수 있습니까] (https://github.com/tensorflow/tensorflow/issues/new)? 버그 리포트에 포함시킬 수있는 최소한의 복제물까지 끓일 수 있다면 도움이 될 것입니다.하지만 전체 추적은 관계없이 도움이 될 것입니다. –

+0

다시 밤새 전화를 걸면 같은 번호에서 같은 오류가 발생합니다. 52284962154. 문제를 제기하겠습니다. – jkschin

+0

@AllenLavoie, 오류는 재현 가능합니다. 우리는 1300 만 가지의 33x33x3 패치를 가지고 있으며이를 256 개 배치로 실행합니다. 30747 단계에서 버그가 발생합니다. 작성 중에 TFRecord가 손상된 것 같습니다. 지금 할 수있는 최선의 일은 무엇입니까? – jkschin

답변

1

문제는 쓰기 오류입니다. 데이터를 TFRecords로 다시 변환하면 오류가 사라집니다. 이제 단계 30747을 넘어 설 수 있습니다.