2017-03-14 3 views

답변

0

여기서 제 2 센트 I이 층의 출력이 softmax를 계산할 수 있기 때문에 I 조밀 (num_classes)를 사용

이다.

이진 분류의 경우 일반적으로 교차 엔트로피를 손실 함수로 사용합니다. 따라서 p (x = 1)와 p (x = 0)는 1-p (x = 1)로 계산할 수 있습니다.

다중 클래스 분류의 경우, 출력 크기를 1 씩 줄이는 유일한 이점은 숫자 매개 변수를 줄이는 것입니다. 우리는 p (x = k) = 1 - sum_ {i = 1}^K p = i), K는 숫자 클래스이다. 따라서 softmax를 사용하지 않고 다른 기능을 사용하지 않으려는 경우 출력 레이어에 (num_classes - 1) 개의 단위를 사용할 수 있습니다.

+0

안녕하세요 @unaki, 답장을 보내 주셔서 감사합니다. P (클래스 1) = 1 - P (클래스 0)이므로 하나의 출력 단위로 수행 할 수 있습니다. 그러나 말했듯이, 선형 종속성은 여러 클래스와 함께 존재합니다. 따라서 이론적으로'Dense (num_classes)'가 필요하지 않아야합니다. 'Dense (num_classes - 1)'이면 충분합니다. 왜 안 그래? – StatsSorceress

+0

알겠습니다. 대부분의 경우, 합계가 1이되도록 출력 레이어를 정규화하려고합니다. 한 가지 일반적인 기능은 softmax입니다. 그러나 tensorflow와 같은 프레임 워크의 softmax 함수는 크기 (num_classes)의 벡터를 사용합니다. 그래서 우리는 차원 수를 클래스 수로 유지해야합니다. 요약하면, 우리는 구현 제약으로 이것을합니다. – unaki

관련 문제