2014-01-15 4 views
0

Wikipedia에는 세 가지 기능 확장 방법이 명시되어 있습니다. 언제 사용해야합니까? (고려 사항은 무엇입니까?)피쳐 스케일링 유형의 차이점은 무엇입니까?

구체적으로 말하면 SVM으로 구현 된 구문에 대한 감정 분석이 필요합니다.

(참고 : this 게시물을 보았습니다. 여러 가지 방법을 잘 설명하지만 각각을 사용해야 할 때는 아무 것도 말하지 않습니다).

+0

대상으로하는 응용 프로그램 중 많은 부분이 관련이 없습니다. 대답은 전적으로 귀하의 피쳐 모델이 어떻게 생겼는지에 달려 있습니다. – tripleee

답변

0

을 :) 사실이 표준화를 통해 확장 선택하는 합리적인 규칙을 제공하는 것은 매우 어렵다 감사드립니다. 데이터의 표준화는 좋은 이론적 근거를 가지며 스케일링보다 특이 치에 영향을 덜받습니다. 결과적으로 가장 일반적으로 사용되는 전처리 방법은 표준화입니다.

특히, 표준화에 대해 질문하는 경우 데이터의 단어 표현 모음을 사용해야합니다. 이러한 경우 tf-idf는 데이터 표현의 가장 명백한 선택이며, 내부 표준화 및 로그 스케일링으로 인해 자체적으로 잘 표준화되어 있기 때문에 스케일링/표준화의 영향을 거의받지 않습니다.

관련 문제