1

불균형 교육 데이터에서 일부 CNN 및 RNN을 교육하는 동안 내 교육이 상대적으로 빠르게 수렴되는 반면 큰 클래스의 비율 (예 : if 80 %의 예는 아마 항상 yes를 출력 할 것입니다.) 내가 설명 할 수있는 ..이 솔루션은 로컬 최적이며 네트워크는 훈련 도중 그것을 탈출 할 수 없다는 것을 알게되었습니다. 이 explantion 올바른 및이 동작은 대부분 이런 경우에 발견 된 있습니까? 내가 어떻게해야합니까? 세트를 더 균일하게 만들기 위해 더 많은 교육 데이터를 합성 하시겠습니까? 또 뭐야? 감사합니다.컴퓨터 학습을위한 불균형 교육 데이터 (CNN/RNN)

답변

1

네, 맞습니다. 불균형 한 훈련 데이터가 정확도에 영향을 미칩니다. 클래스 불균형 문제를 해결하기위한 해결책 중 일부는 다음과 같습니다.

1) 더 많은 데이터 수집 : 어떤 경우에는 쉽지 않습니다. 예를 들어 비 사기의 경우와 비교하여 사기의 경우는 매우 적습니다.

2) 언더 샘플링 : 다수 클래스에서 데이터를 제거합니다. 임의로 또는 정보를 제거 할 수 있습니다 (배포판의 도움을 받아 제거 할 부품/패치를 결정하십시오). 3) 오버 샘플링 : 소수 클래스에 속한 관측치를 복제합니다.

1

귀하의 질문은 TF와 관련이 없습니다. 이것은 기계 학습의 표준 문제입니다. google에 "기계 학습에서 불균형 한 데이터 처리"라고 입력하고 몇 페이지를 읽으십시오.

  • 얻을 이상의 데이터
  • 이용 다른 메트릭 (F1)
  • 언더/오버 샘플링/가중
: 여기

몇 가지 방법이다
관련 문제