0

문서 분류 도메인에서 1000 인스턴스의 데이터 집합을 갖고 있지만 인스턴스 (문서)가 작은 콘텐츠 인 경우, 200 개의 인스턴스가 있지만 각각의 개별 인스턴스가 더 풍부한 콘텐츠를 가진 또 다른 데이터 세트가 있습니다. IDF가 제 걱정에서 벗어나면 교육의 인스턴스 수는 실제로 중요합니까? 그 분류 알고리즘을 고려해야합니까?인스턴스의 수 또는 인스턴스의 내용이 더 중요합니까 (기계 학습)?

감사합니다. sam

+0

나는 그 질문을 이해하지 못한다. 무엇을 고려해야할까요? 정확히 무엇을 요구하고 있습니까? 어떤 알고리즘에 대해 생각하고 있습니까? (각기 다르게 동작 함) 텍스트의 기능은 무엇입니까? – amit

+0

죄송합니다. 귀하에게 명확하지 않은 경우. 즉, SVM, kNN, NaiveBayes와 같은 분류 알고리즘은 교육 데이터 세트의 인스턴스 수를 고려합니다. 텍스트 분류 문제에서 그 특징은 단어 또는 N- 그램 일 것입니다. – KillBill

+0

OK, 이해할 수 있습니다. 그러나 질문에서 각 문서의 크기에 대해 무엇을 언급하고 있는지 이해할 수 없습니다. 또한 단어 나 N 그램을 피할 수있는 방법이 더 많습니다. – amit

답변

1

일반적인 기계 학습 문제로이를 제기 할 수 있습니다. 교육 데이터의 크기가 어떻게 영향을 미치는지 이해하는 데 도움이되는 가장 간단한 문제는 커브 피팅입니다.

분류기 또는 적합 모델의 불확실성 및 편향은 표본 크기의 함수입니다. 작은 표본 크기는 더 많은 훈련 표본을 수집하여 피하려고 자주 시도하는 잘 알려진 문제입니다. 이는 비선형 분류기의 불확도 추정이 모델의 선형 근사법에 의해 추정되기 때문입니다. 그리고이 추정은 많은 수의 샘플이 주 조건으로 인 경우에만 정확합니다.

아웃 라이어의 비율 또한 교육 샘플 크기를 결정할 때 고려해야 할 중요한 요소입니다. 더 큰 표본 크기가 특이 치의 비율이 클 경우 표본 크기가 제한되어야합니다.

문서 크기는 실제로 기능 공간 크기의 간접적 인 지표입니다. 예를 들어 각 문서에서 10 개의 기능 만 있으면 10 차원 공간에서 문서를 분리/분류하려고합니다. 각 문서에 100 개의 기능이있는 경우 100 차원 공간에서도 동일한 기능이 사용됩니다. 더 높은 차원의 문서를 구분하는 선을 쉽게 볼 수 있습니다.

문서 크기와 샘플 크기 모두 가능한 한 높게 책정되지만 실제로는 불가능합니다. 예를 들어 분류기의 불확실성 함수를 계산하면 불확도와 편차가 거의 감소하지 않는 샘플 크기보다 큰 임계 값을 찾을 수 있습니다. 경험적으로 몬테카를로 시뮬레이션을 통해 일부 문 제에 대해이 임계 값을 찾을 수도 있습니다.

대부분의 엔지니어는 불확실성을 추정하기 위해 신경 쓰지 않아 종종 구현하는 방법의 차선책으로 이어집니다. 이것은 장난감 문제에 대해서는 문제가 없지만 대부분의 시스템에서 추정 및 계산의 불확실성을 고려한 실제 문제에서 중요합니다. 나는 당신의 질문에 어느 정도 답할 수 있기를 바랍니다.

관련 문제