본질적으로 고차원 공간에 존재하는 텍스트 분류 데이터에 관한 질의

필자는 대부분의 텍스트 분류 작업을 위해 선형 커널을 선택하는 많은 저자가 있다고 가정하고 지원 벡터 머신 서적과 기술 논문을 많이 읽었습니다.본질적으로 고차원 공간에 존재하는 텍스트 분류 데이터에 관한 질의

그들은 텍스트 분류 문제의 데이터가 이미 고차원 공간에 있기 때문에 SVM을 사용하여 데이터를 분류하는 동안 선형 커널을 선택하여 데이터를 분리하는 것으로 충분합니다.

다음과 같이 가정의 나의 이해는 다음과 같습니다 텍스트 분류 작업에서는

, 분류에 대한 선택됩니다 (우리가 문서를 찾고 있습니다 많은 경우 특정 중요한 단어에서) 기능의 수를 작업은 대부분 매우 높을 것이며 이것이 고차원 공간에있는 데이터의 의미입니다.

가정에 대한 정확한 이해가 정확합니까? 그렇지 않다면 나는 누군가가이 가정에 대해 어떤 빛을 비추려고 노력하고 싶습니다.

도움을 주시면 감사하겠습니다.

나는 그것이 틀림 없음을 이해합니다.

각 기능은 크기에 해당합니다.
높은 차원 => 높은 확률의 분리.
비선형 커널은 분리 가능성을 높이기 위해 데이터를 (비선형 적으로) 상위 차원으로 변환하기 만하므로 많은 기능이있는 경우에는 필요하지 않습니다.

나는 SVM의 유사한 약 강의를 읽고 추천 할 수 있습니다 : http://www.csc.kth.se/utbildning/kth/kurser/DD2427/bik12/Schedule.php 내가 주제 알고있는 최고의 자원이다 그. 짧고 요점.

2012-07-31 15:17:42 SlimJim

응답 해 주셔서 감사합니다. 또한 일부 샘플 데이터를 제공하는 사이트처럼 SVM을 사용하여 연습을 할 수있는 온라인 리소스가 있는지 알고 싶습니다. 또한 데이터를 분류하여 특성 벡터를 생성하고 재생할 수 있습니까? – anonuser0428

이 (가) 게시물을 편집하여 참조를 추가했습니다. – SlimJim

답변