2015-01-02 7 views
0

다양한 전자 상거래 사이트의 리뷰 데이터 세트가 있습니다.SVM을 사용한 스팸 탐지 검토

내 임무는 파이썬에서 SVM을 사용하여 스팸으로 분류하는지 아닌지를 분류하는 것입니다.

텍스트 데이터 세트를 SVM 기능으로 변환하려면 어떻게해야합니까? 고려해야 할 다른 기능이 있습니까? 그렇다면 SVM 기능 벡터로 변환하는 방법은 무엇입니까?

이 작업을 수행하는 데 사용할 수있는 샘플 코드 또는 자습서가 있습니까? 이 작업을 구현해야하므로이 부분을 안내하십시오.

+0

"텍스트 분류를 위해 svm"으로 검색을 시작할 것입니다. – NPE

+1

이러한 메시지를 스팸이 아닌 스팸으로 분류하는 데 유용한 기능은 무엇입니까? – tripleee

+0

정서 분석을 수행하려는 경우, 정서 분석 시스템의 출력이 중요한 특징이되어야합니다. – tripleee

답변

2

당신이 SVM 같은 기계 학습 알고리즘에 제공 할 수있는 입력 텍스트 입력을 변환하는 고전적인 방법 :

  • 나누기 예를 들어 토큰의 목록에 텍스트 (각 단어, 두 단어의 각 그룹, 등)
  • 주어진 모델에 따라 토큰의 발생 횟수를 나타냅니다. 예를 들어, TFIDF는 문서의 전체 코퍼스에 대한 빈도에 따라 각 토큰을 가중시키는 모델입니다.

각 문서는 벡터로 표현되며, 각 구성 요소는 텍스트 어휘의 한 단어이고 관련된 가중치는 고려 된 문서에 비해이 단어에 대한 통계적 지표를 나타냅니다.

자세한 내용은 scikit-learn http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction을 참조하고 텍스트를 기계 학습 알고리즘의 유효한 입력으로 나타내는 가장 일반적인 방법을 구현하십시오.

+0

SVM을 위해 내 데이터 세트를 스팸 또는 비 스팸으로 직접 레이블링해야합니까? –

+0

예, 그렇지 않으면 SVM과 같은 감독 된 방법으로 어떤 것도 배울 수 없습니다. –

관련 문제