2014-10-17 3 views
0

일반적으로 역 전파 NN에는 사라지는 그라데이션 문제가 있습니다. Convolutional NN (CNN)에서이 사라지는 그라디언트 문제를 제거하는 방법 (왜?)을 발견했습니다.왜 컨볼 루션 신경 네트워크에 대한 사전 학습

또한 일부 논문에서는 CNN에 대한 몇 가지 사전 훈련 방법에 대해 논의했습니다. 누군가 나에게 다음을 설명 할 수 있습니까?

(1) the resons for pretraining in CNN and 
    (2) what are the problems/limitations with CNN? 
    (3) any relavent papers talking about the limitation of CNN? 

미리 감사드립니다.

+0

단지 첫 번째 지점에 관한 것입니다. 다른 유형의 심층 학습 방법으로 CNN은 많은 노드와 레이어를 배워서 역 전파 알고리즘의 성능을 저하시킵니다. 출력 노드에서 10 %의 오차 차는 제 1 층에서 0.000001 %의 업데이트로 이어질 수있다. Pretraining (감독되지 않은 방법)은이 문제를 겪지 않으며 미세 조정을 위해 backpropagation을 사용하기 전에 의미있는 가중치를 갖도록 네트워크를 업데이트하는 데 사용될 수 있습니다 (패턴을 원하는 출력과 연관 시킴). – ASantosRibeiro

+0

교차 유효성 검사를 시도해보십시오. http://stats.stackexchange.com/search?q=cnn – killogre

답변

3
  1. 사전 트레이닝은 정규화 기술입니다. 모델의 일반화 정확도가 향상됩니다. 네트워크가 많은 양의 데이터에 노출되어 있기 때문에 (많은 tak에서 감독되지 않은 데이터가 방대합니다), 가중치 매개 변수는 기본 데이터의 특정 하위 세트를 오버 피팅하는 것이 아니라 전체적으로 데이터 분포를 표현할 가능성이 큰 공간으로 전달됩니다 분포. 신경망, 특히 엄청난 양의 숨겨진 유닛을 가진 높은 모델 표현 능력을 가진 신경망은 데이터에 과도한 경향이 있으며 무작위 매개 변수 초기화에 취약합니다. 또한 초기 레이어가 감독 방식으로 적절하게 초기화되므로 그라디언트 희석 문제는 더 이상 심각하지 않습니다. 이것이 사전 학습이 일반적으로 그라디언트 디센트 알고리즘을 사용하여 수행되는 감독 작업의 초기 단계로 사용되는 이유입니다.

  2. CNN은 다른 신경망과 동일한 운명을 공유합니다. 조정할 매개 변수가 너무 많습니다. 최적 입력 패치 크기, 숨겨진 레이어 수, 레이어 당 기능 맵 수, 풀링 및 보폭 크기, 정규화 시간, 학습 속도 및 기타 등이 있습니다. 따라서 모델 선택의 문제는 다른 ML 기법에 비해 상대적으로 어렵다. 대규모 네트워크 교육은 GPU 또는 CPU 클러스터에서 수행됩니다.

+0

다른 신경망에 대해서는 확신 할 수 없지만 CNN을 효율적으로 클러스터에서 교육 할 수는 없습니다. 일반적으로 GPU에서 수행됩니다. 나는 물론 정정되고 싶다. –

+1

분명히 효율적인 방법이 아닌 클러스터에서 그들을 교육하고있었습니다. 그러나 GPU가없는 매우 큰 머신에서 깊은 네트워크를 훈련하는 방법은 아직 없습니다. 궁금한 점이 있다면 나는 다음과 같은 논문을 참조 할 것입니다 : http://cs.stanford.edu/people/ang/?portfolio=large-scale-distributed-deep-networks – Cylonmath

+0

아. 고맙습니다. –

관련 문제