랜덤 포리스트의 가방 오류가 무엇입니까? 임의의 포리스트에서 적절한 수의 트리를 찾는 데 최적의 매개 변수입니까?랜덤 포리스트에서 가방 오류가 무엇입니까?
답변
내가 설명하려는 시도를 취할 것입니다 :
는 M 기능을 가지고 있습니다 (또는 속성 또는 변수) 우리의 훈련 데이터 세트가 T 및 가정 해 데이터 집합으로 표현하자. RF의
T = {(X1,y1), (X2,y2), ... (Xn, yn)}
및
Xi is input vector {xi1, xi2, ... xiM}
yi is the label (or output or class).
요약 : - 포기할
-
랜덤 포레스트 알고리즘은 주로 두 가지 방법에 기초한 분류이다 ethod.
생각에는 우리는 우리가 처음 (각 데이터 세트에 대한 n 번) S
와-교체 T 데이터의 임의 리샘플링에서 생성 "same size as original"
의 데이터 세트를 만들 우리의 숲에서 나무의 S
수를 가지고 결정한다. 그러면 {T1, T2, ... TS}
데이터 세트가 생성됩니다. 이들 각각을 부트 스트랩 데이터 세트라고합니다. "교체"로 인해 모든 데이터 세트 Ti
은 중복 데이터 레코드를 가질 수 있으며 Ti는 원래 데이터 세트의 여러 데이터 레코드를 누락 될 수 있습니다. 이를 Bootstrapping
이라고합니다. (en.wikipedia.org/wiki/Bootstrapping_(statistics))
bagging은 부트 스트랩을 취하는 과정으로 &은 각 부트 스트랩에서 학습 된 모델을 집계합니다.
지금, RF는S
나무를 생성하고 트리를 만들 M
가능한 기능 중 m (=sqrt(M) or =floor(lnM+1))
임의의 하위 기능을 사용합니다. 이를 무작위 부분 공간 방법이라고합니다. 따라서 각 Ti
부트 스트랩 데이터 세트에 대해 Ki
트리를 만듭니다. 일부 입력 데이터를 분류하려는 경우 Y = {y1, y2, ..., ys}
으로 표시 할 수있는 각 트리를 통과시키고 S
출력 (각 트리에 하나씩)을 생성합니다. 최종 예측은이 집합에 대한 다수결 투표입니다.
아웃 - 오브 - 백 에러 :
일본어 훈련 각 (Xi,yi)
위한 분류기 (S
나무)를 생성 한 후, 즉 T
, (Xi,yi)
을 포함하지 않는 모든 Tk
를 선택 세트. 주의해야 할 부분 집합은 원본 데이터 집합의 특정 레코드를 포함하지 않는 부스트랩 데이터 집합입니다. 이 집합을 가방 밖에서의 예제라고합니다. 이러한 하위 집합 (원본 데이터 집합 T의 각 데이터 레코드 당 하나)은 n
입니다.OOB 분류자는 Tk
이상의 투표 수를 합산하여 (xi,yi)
을 포함하지 않습니다.
일반화 오류에 대한 Out-of-Bag 견적은 훈련 세트의 Out-of-Bag 분류기의 오류율입니다 (알려진 yi
과 비교하십시오).
왜 중요한가요? Breiman [1996b]에서 bagged 분류기의 오류 추정에 대한 연구는 out-of-bag 추정치가 훈련 세트와 동일한 크기의 테스트 세트를 사용하는 것만 큼 정확하다는 것을 보여주는 경험적 증거를 제공합니다. 따라서, 아웃백 백 (out-of-bag) 오차 추정치를 사용하면 세트 대용 시험 세트의 필요성이 제거된다.
은 (수정 주셔서 감사합니다 @Rudolf. 그의 아래에 설명.)
무작위 숲 알고리즘의 Breiman의 원래 구현에서 각 트리는 총 교육 데이터의 약 2/3에서 학습됩니다. 포레스트가 빌드됨에 따라 각 트리는 해당 트리를 구축하는 데 사용되지 않은 샘플에 대해 테스트 할 수 있습니다 (교차 검증과 동일하게 남겨 둡니다). 이것은 가방 밖의 오류 추정치 - 생성되는 임의의 포리스트에 대한 내부 오류 추정치입니다.
에 질문을 게시 할 수없는 경우에는 주셔서 감사합니다 간결하고 명확한 대답. – ays0110
- 1. 랜덤 포리스트에서 sampsize 오류가 발생했습니다
- 2. 돼지 - 가방
- 3. 랜덤 제네레이터의 랜덤 시드를 생성하는 방법은 무엇입니까?
- 4. 가방 용 XACML 유형
- 5. 애드혹 버전 가방
- 6. 가방 목록의 요소 이동
- 7. 단어 가방 사용
- 8. 단어 가방 분류
- 9. NHibernate의 자동 업데이트 가방
- 10. 돼지의 가방 값으로 묶기
- 11. C# 클래스 속성 가방
- 12. Opencv에서의 Visual Word 가방
- 13. 요리사 - 데이터 가방 쿼리
- 14. 요리법에서 요리사 데이터 가방 만들기
- 15. 랜덤 URL을 만드는 방법은 무엇입니까?
- 16. 올바른 랜덤 알고리즘은 무엇입니까?
- 17. 큰 xdf 파일의 무작위 포리스트에서 데이터 프레임을 읽지 않고
- 18. Visual Studio 2010에서 키보드 랜덤 오류가 발생했습니다.
- 19. mysql_fetch_assoc()이 죽어 랜덤 페이지로드시 오류가 발생합니까?
- 20. NHibernate에이 속성에 열 및 가방
- 21. 가방 컨테이너로 가방을 만드는 방법
- 22. 임의의 포리스트에서 모델링 한 후 기능을 인쇄하는 방법은 무엇입니까?
- 23. 포리스트에서 모든 DirectoryEntry를 가져올 수 없습니다.
- 24. 무작위 포리스트에서 학습 곡선을 사용하는 방법
- 25. 랜덤 (a, b) 랜덤 생성 (0, 1)
- 26. Piglatin : 나는 Piglatin에 안돼서 가방
- 27. 돼지의 가방 목록을 읽으려면 어떻게해야합니까?
- 28. 가방 2 개를위한 백팩 알고리즘
- 29. 심포니 2 레지스터 세션 가방
- 30. Java에서 두 객체 가방 연합
이 질문은 특정 구현, 당신은 http://stats.stackexchange.com/ – Sentry