나는 here 내가 처음으로 코드를 실행Tensorflow는 : 일관성 GPU 인식
, 나는이있어 내 Tensorflow 설치가 Tensorflow 지침에서 예제 코드를 사용하여 내 GPU를 사용하고 있는지 여부를 확인하기 위해 검사를 실행 출력 :
$ python gpu-test.py
아웃 :
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.so locally
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:937] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties:
name: GRID K520
major: 3 minor: 0 memoryClockRate (GHz) 0.797
pciBusID 0000:00:03.0
Total memory: 3.94GiB
Free memory: 3.91GiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0: Y
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GRID K520, pci bus id: 0000:00:03.0)
Device mapping:
/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: GRID K520, pci bus id: 0000:00:03.0
I tensorflow/core/common_runtime/direct_session.cc:255] Device mapping:
/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: GRID K520, pci bus id: 0000:00:03.0
MatMul: (MatMul): /job:localhost/replica:0/task:0/gpu:0
I tensorflow/core/common_runtime/simple_placer.cc:827] MatMul: (MatMul)/job:localhost/replica:0/task:0/gpu:0
b: (Const): /job:localhost/replica:0/task:0/gpu:0
I tensorflow/core/common_runtime/simple_placer.cc:827] b: (Const)/job:localhost/replica:0/task:0/gpu:0
a: (Const): /job:localhost/replica:0/task:0/gpu:0
I tensorflow/core/common_runtime/simple_placer.cc:827] a: (Const)/job:localhost/replica:0/task:0/gpu:0
[[ 22. 28.]
[ 49. 64.]]
그것은 GPU를 사용하고, 모든 좋은!
이 확실한 염두에두고, 나는 커다란 CNN이있는 Jupyter 노트북을 시작하고 그것을 훈련시킨다.
나는 혼란스럽고 gpu-test.py
를 두 번이나 실행합니다.
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.so locally
E tensorflow/stream_executor/cuda/cuda_driver.cc:509] failed call to cuInit: CUDA_ERROR_NO_DEVICE
I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:158] retrieving CUDA diagnostic information for host: ip-172-31-19-90
I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:165] hostname: ip-172-31-19-90
I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:189] libcuda reported version is: 375.39.0
I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:363] driver version file contents: """NVRM version: NVIDIA UNIX x86_64 Kernel Module 367.57 Mon Oct 3 20:37:01 PDT 2016
GCC version: gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4)
"""
I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:193] kernel reported version is: 367.57.0
E tensorflow/stream_executor/cuda/cuda_diagnostics.cc:303] kernel version 367.57.0 does not match DSO version 375.39.0 -- cannot find working devices in this configuration
Device mapping: no known devices.
I tensorflow/core/common_runtime/direct_session.cc:255] Device mapping:
MatMul: (MatMul): /job:localhost/replica:0/task:0/cpu:0
I tensorflow/core/common_runtime/simple_placer.cc:827] MatMul: (MatMul)/job:localhost/replica:0/task:0/cpu:0
b: (Const): /job:localhost/replica:0/task:0/cpu:0
I tensorflow/core/common_runtime/simple_placer.cc:827] b: (Const)/job:localhost/replica:0/task:0/cpu:0
a: (Const): /job:localhost/replica:0/task:0/cpu:0
I tensorflow/core/common_runtime/simple_placer.cc:827] a: (Const)/job:localhost/replica:0/task:0/cpu:0
[[ 22. 28.]
[ 49. 64.]]
내가 지금 완전히 혼란 스러워요 :이 시간, 아무것도 그 동안 변경되지에도 불구하고, 나는 다른 출력을 얻을.
GPU 테스트를 처음 실행하고 두 번째로 실행 한 두 가지 일은 (1) 파일의 압축을 풀었고 (2) 주피터 노트를 실행했습니다. 아무것도 아니며이 설치되었거나, 업데이트되었거나, 어쨌든 내 시스템에서 변경되었습니다.
아무도 도와 줄 수 있습니까? 그것은 5 분 일찍 일어나지 않았다 때
방법이 갑자기 일어나고 온 :kernel version 367.57.0 does not match DSO version 375.39.0
을 그리고 어떻게 커널 버전을 업데이트 할 수 있습니까?
업데이트를 설치하려고하기 전에
kill -9 PID
으로 죽여의 PID (프로세스 ID)를 복사 : 자동 드라이버 업데이트는 같은 백그라운드에서 실행 무인 업데이트로 드라이버를 버전 375.39.0으로 업데이트하려고 시도했지만 AWS g2.2xlarge 인스턴스의 GRID K520 GPU는이 드라이버 버전에 비해 너무 오래되었습니다. 어떤 사기로 인해 자동 업데이트를 시도하면 시스템이 일관성없는 상태가 발생하여 모든 작업이 중단되었습니다. 나를위한 유일한 방법은 새 AWS 인스턴스를 시작하고 시스템을 그대로 유지하기 위해 시작한 직후 업데이트 프로세스를 종료하는 것입니다. 매우 성가신 문제 : /. – Alex