2012-07-26 16 views
20

방금 ​​신경망 프로그래밍을 시작했습니다. 현재 Backpropogation (BP) 신경망이 어떻게 작동하는지 이해하고 있습니다. BP 네트워크에서의 훈련 알고리즘은 매우 간단하지만 알고리즘이 작동하는 이유에 대한 텍스트는 찾을 수 없습니다. 좀 더 구체적으로 말하자면, 신경망에서 시그 모이 드 함수를 사용하는 것을 정당화하기위한 수학적 추론을 찾고 있으며, 그로 인해 거의 모든 데이터 분포를 모방하게됩니다.왜 Sigmoid 함수가 신경망에서 작동합니까?

감사합니다.

답변

23

시그 모이 드 함수는 네트워크에서 비선형 성을 도입합니다. 비선형 활성화 함수가 없으면 네트는 입력의 선형 조합 인 함수 만 학습 할 수 있습니다. 결과는 또는 Cybenko theorem으로, 1989 년에 그것을 증명 한 신사 이후입니다. Wikipedia은 시작하기에 좋은 장소이며 원본 종이에 대한 링크가 있습니다 (증거는 다소 복잡합니다). Sigmoid를 다른 것과 반대로 사용하는 이유는 그것이 지속적이고 차별화가 가능하고, 그 파생물이 (매우 유사한 특성을 갖는 tanh의 유도체와는 대조적으로) 계산 속도가 매우 빠르며 제한된 범위 (0 ~ 1, 배타적)

+1

좋은 답변이지만 가정은 "연속 (따라서 차별화 할 수 있음)"입니다. 예 : abs (x)는 0으로 계속되지만 구별 할 수 없습니다. – Michael

+0

사실, 내 대답을 편집했습니다 – mbatchkarov

+1

위키 피 디아 기사에서 이것을 말합니다 : * "커트 호닉 (Kurt Hornik)은 1991 년에 활성화 기능의 구체적인 선택이 아니라, 신경망에 존재의 잠재력을 부여하는 다층 피드 포워드 아키텍처 자체를 보여주었습니다 범용 approximators. 출력 단위는 항상 선형으로 간주됩니다. "* 실제로 그것은 비선형 활성화 기능을 요구하는 것에 대해서는 아무 것도 말하지 않는 것 같습니다. 그러나 정리의 공식 진술은 "일정하지 않은, 바운드 된, 그리고 단조롭게 증가하는 연속 함수"를 말하고있다. 아마도 * bounded *와 monotone 부분은 비선형 성을 암시한다. – Desty

관련 문제