저는 신경 네트워크를 시작합니다. 현재는 대부분 D. Kriesel's tutorial 다음입니다. 바로 처음에는 감독 학습에 관한 세 가지 (다른?) 학습 규칙 (Hebbian, 델타 규칙, 역 전파)을 소개합니다.신경 네트워크 - 왜 그렇게 많은 학습 규칙?
내가 모르는 뭔가가 있지만, 목표는 오류를 최소화하기 위해 단지의 경우, 왜 그냥 Error(entire_set_of_weights)
에 걸쳐 그라데이션 하강을 적용 할 수 있는가?
편집 : 나는 아직도 저를 혼란스럽게 답을 인정해야합니다. 이 방법들 간의 실제 차이점과 그것들과 직선 구배 하강의 차이점을 지적 할 수 있다면 도움이 될 것입니다.
이러한 학습 규칙은 네트워크의 계층 구조를 고려한 것으로 보입니다. 반면에 전체 가중치 세트에 대해 최소 Error(W)
을 찾는 것은 완전히 무시합니다. 그게 어떻게 들어 맞는거야?