2010-01-23 8 views
2

저는 신경 네트워크를 시작합니다. 현재는 대부분 D. Kriesel's tutorial 다음입니다. 바로 처음에는 감독 학습에 관한 세 가지 (다른?) 학습 규칙 (Hebbian, 델타 규칙, 역 전파)을 소개합니다.신경 네트워크 - 왜 그렇게 많은 학습 규칙?

내가 모르는 뭔가가 있지만, 목표는 오류를 최소화하기 위해 단지의 경우, 왜 그냥 Error(entire_set_of_weights)에 걸쳐 그라데이션 하강을 적용 할 수 있는가?

편집 : 나는 아직도 저를 혼란스럽게 답을 인정해야합니다. 이 방법들 간의 실제 차이점과 그것들과 직선 구배 하강의 차이점을 지적 할 수 있다면 도움이 될 것입니다.

이러한 학습 규칙은 네트워크의 계층 구조를 고려한 것으로 보입니다. 반면에 전체 가중치 세트에 대해 최소 Error(W)을 찾는 것은 완전히 무시합니다. 그게 어떻게 들어 맞는거야?

답변

11

하나의 질문은 "비난"오류를 배분하는 방법입니다. 기본 델타 규칙 또는 LMS 규칙 은 본질적으로 그래디언트 디센트 인입니다. 다층 네트워크에 델타 규칙을 적용하면 백 드롭이 발생합니다. 더 빠른 융합, 비 감독 학습, 일시적인 질문, 생물학에 더 가깝다고 여겨지는 모델 등 다양한 이유로 다른 규칙이 만들어졌습니다.

하강?" 그라데이션 강하는 일부 문제에 대해서는 효과가있을 수 있지만 대부분의 문제에는 로컬 미니 마가 있는데 순진한 그래디언트 강하가 걸리게됩니다. 초기 반응은 '운동량'용어를 추가하여 로컬 최소값의 "롤아웃" ; 꽤 고전적인 백 드롭 알고리즘입니다.

2

첫째는, "역 전파은"단순히 별도의 규칙을하지 그래서 다시 입력 출력에서 ​​각 레이어에 델타 규칙을 적용한다는 것을 의미 있습니다. 하지 간단한 그라데이션 하강, 음, 델타 규칙이 기본적으로 그라데이션 하강 이유에 관해서는

. 그러나, 그것은 훈련 데이터를 초과하는 경향이 있으며 오류 마진을 0으로 줄이려고 시도하지 않는 기법만큼 효율적으로 일반화하지는 못합니다. 이것은 "오류"란 단순히 샘플과 출력 간의 차이를 의미하기 때문에 의미가 있습니다. 모든 가능한 입력을 정확하게 나타낼 수는 없습니다.

1

역 전파 및 순진한 그래디언트 디센트는 또한 계산 효율이 다릅니다. Backprop은 기본적으로 네트워크 구조를 고려하여 각 가중치에 대해 실제로 필요한 부분 만 계산합니다.

가중치와 관련된 오류의 파생어는 다음과 같이 chainrule을 통해 분할됩니다. ∂E/∂W = ∂E/∂A * ∂A/∂W. A는 특정 단위의 활성화입니다. 대부분의 경우 네트워크 토폴로지로 인해 W가 희소하기 때문에 파생물은 0이됩니다. Backprop을 사용하면 그라디언트 부분을 무시하는 방법에 대한 학습 규칙을 얻을 수 있습니다.

그래서 수학적 관점에서 볼 때, 역풍은 그렇게 흥미롭지 않습니다.

1

예를 들어 백 드롭을 로컬 최소값으로 실행하는 데 문제가있을 수 있습니다. 또한 예제와 같이 배경으로 토폴로지를 조정할 수 없습니다. 체중과 토폴로지 (반복적 인 것조차도)를 동시에 조정할 수있는 자연에서 영감을 얻은 메타 휴학 (예 : 진화 전략)을 사용하는 멋진 학습 방법이 있습니다. 아마, 나는 그들도 다루기 위해 하나 이상의 챕터를 추가 할 것이다.

원고 다운로드 페이지에 토론 기능이 있습니다. 원고에 대해 마음에 들지 않는 다른 머리글을 발견하면 자유롭게 페이지에 추가하여 다음번에 변경할 수 있습니다. 판.

Greetz, David (Kriesel ;-))

관련 문제