2017-03-25 1 views
2

나는 here 내가 처음으로 코드를 실행Tensorflow는 : 일관성 GPU 인식

, 나는이있어 내 Tensorflow 설치가 Tensorflow 지침에서 예제 코드를 사용하여 내 GPU를 사용하고 있는지 여부를 확인하기 위해 검사를 실행 출력 :

$ python gpu-test.py 

아웃 :

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.so locally 
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.so locally 
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.so locally 
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.so.1 locally 
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.so locally 
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:937] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GRID K520 
major: 3 minor: 0 memoryClockRate (GHz) 0.797 
pciBusID 0000:00:03.0 
Total memory: 3.94GiB 
Free memory: 3.91GiB 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0: Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GRID K520, pci bus id: 0000:00:03.0) 
Device mapping: 
/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: GRID K520, pci bus id: 0000:00:03.0 
I tensorflow/core/common_runtime/direct_session.cc:255] Device mapping: 
/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: GRID K520, pci bus id: 0000:00:03.0 

MatMul: (MatMul): /job:localhost/replica:0/task:0/gpu:0 
I tensorflow/core/common_runtime/simple_placer.cc:827] MatMul: (MatMul)/job:localhost/replica:0/task:0/gpu:0 
b: (Const): /job:localhost/replica:0/task:0/gpu:0 
I tensorflow/core/common_runtime/simple_placer.cc:827] b: (Const)/job:localhost/replica:0/task:0/gpu:0 
a: (Const): /job:localhost/replica:0/task:0/gpu:0 
I tensorflow/core/common_runtime/simple_placer.cc:827] a: (Const)/job:localhost/replica:0/task:0/gpu:0 
[[ 22. 28.] 
[ 49. 64.]] 

그것은 GPU를 사용하고, 모든 좋은!

이 확실한 염두에두고, 나는 커다란 CNN이있는 Jupyter 노트북을 시작하고 그것을 훈련시킨다.

나는 혼란스럽고 gpu-test.py를 두 번이나 실행합니다.

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.so locally 
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.so locally 
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.so locally 
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.so.1 locally 
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.so locally 
E tensorflow/stream_executor/cuda/cuda_driver.cc:509] failed call to cuInit: CUDA_ERROR_NO_DEVICE 
I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:158] retrieving CUDA diagnostic information for host: ip-172-31-19-90 
I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:165] hostname: ip-172-31-19-90 
I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:189] libcuda reported version is: 375.39.0 
I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:363] driver version file contents: """NVRM version: NVIDIA UNIX x86_64 Kernel Module 367.57 Mon Oct 3 20:37:01 PDT 2016 
GCC version: gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4) 
""" 
I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:193] kernel reported version is: 367.57.0 
E tensorflow/stream_executor/cuda/cuda_diagnostics.cc:303] kernel version 367.57.0 does not match DSO version 375.39.0 -- cannot find working devices in this configuration 
Device mapping: no known devices. 
I tensorflow/core/common_runtime/direct_session.cc:255] Device mapping: 

MatMul: (MatMul): /job:localhost/replica:0/task:0/cpu:0 
I tensorflow/core/common_runtime/simple_placer.cc:827] MatMul: (MatMul)/job:localhost/replica:0/task:0/cpu:0 
b: (Const): /job:localhost/replica:0/task:0/cpu:0 
I tensorflow/core/common_runtime/simple_placer.cc:827] b: (Const)/job:localhost/replica:0/task:0/cpu:0 
a: (Const): /job:localhost/replica:0/task:0/cpu:0 
I tensorflow/core/common_runtime/simple_placer.cc:827] a: (Const)/job:localhost/replica:0/task:0/cpu:0 
[[ 22. 28.] 
[ 49. 64.]] 

내가 지금 완전히 혼란 스러워요 :이 시간, 아무것도 그 동안 변경되지에도 불구하고, 나는 다른 출력을 얻을.

GPU 테스트를 처음 실행하고 두 번째로 실행 한 두 가지 일은 (1) 파일의 압축을 풀었고 (2) 주피터 노트를 실행했습니다. 아무것도 아니며이 설치되었거나, 업데이트되었거나, 어쨌든 내 시스템에서 변경되었습니다.

아무도 도와 줄 수 있습니까? 그것은 5 분 일찍 일어나지 않았다 때

방법이 갑자기 일어나고 온 :

kernel version 367.57.0 does not match DSO version 375.39.0 

을 그리고 어떻게 커널 버전을 업데이트 할 수 있습니까?

답변

1

나는 무슨 일이 일어 났는지 알았어 : 무인 업데이트로 백그라운드에서 실행중인 자동 드라이버 업데이트가 드라이버를 버전 375.39.0으로 업데이트하려고 시도했습니다.

그러나 AWS g2.2xlarge 인스턴스의 GRID K520 GPU는이 드라이버 버전에 비해 너무 오래되었습니다.

자동 업데이트를 시도하면 시스템이 일관성없는 상태가되어 모든 문제가 발생합니다.

나를위한 유일한 방법은 새로운 AWS 인스턴스를 시작하고 시스템을 원래 상태로 유지하기 위해 시작 직후에 업데이트 프로세스를 중단하는 것이 었습니다. 매우 성가신 문제 : /.

사람이 같은 문제가 일어나는 경우가 있다면 터미널

  • 확인에 top을 입력하여 바로
  • 디스플레이 실행중인 프로세스에 신선한 AWS의 G2 인스턴스
  • SSH 자신

    • 시작을 바쁜 과정 "무인 ...."그렇습니다 경우, 그것이 내가 무슨 일이 일어 났는지 발견했습니다
  • 1

    즉, cuda 드라이버를 최신 버전으로 업데이트해야합니다. 불일치가 어디에서 오는 것인지 확실하지 않습니다.

    +0

    업데이트를 설치하려고하기 전에

  • kill -9 PID으로 죽여의 PID (프로세스 ID)를 복사 : 자동 드라이버 업데이트는 같은 백그라운드에서 실행 무인 업데이트로 드라이버를 버전 375.39.0으로 업데이트하려고 시도했지만 AWS g2.2xlarge 인스턴스의 GRID K520 GPU는이 드라이버 버전에 비해 너무 오래되었습니다. 어떤 사기로 인해 자동 업데이트를 시도하면 시스템이 일관성없는 상태가 발생하여 모든 작업이 중단되었습니다. 나를위한 유일한 방법은 새 AWS 인스턴스를 시작하고 시스템을 그대로 유지하기 위해 시작한 직후 업데이트 프로세스를 종료하는 것입니다. 매우 성가신 문제 : /. – Alex

  • 관련 문제