2017-03-30 4 views
0

최소한의 데이터 집합을 만들 수 있습니까? 나는 정서 분석을하고 있으며 메시지의 극성을 얻고 있습니다. 나는이 튜토리얼을 따라 가고있었습니다. 그러나 필요한 데이터 세트가 아닙니다. http://machinelearningmastery.com/naive-bayes-classifier-scratch-python/파이썬으로 벡터화 된 파일을 만드는 방법. 베이 즈안 네트워크에서 코드를 실행하기 위해 트윗을 벡터 형식으로 inorder로 변환해야합니다.

여기에 제공된 csv 파일을 누구나 설명 할 수 있다면 좋을 것입니다.

답변

0

기본적으로 텍스트 문서 모음을 숫자 특징 벡터로 변환하는 과정을 벡터화라고합니다. 텍스트 문서를 벡터화하는 데 사용할 수있는 몇 가지 기술이나 개념이 있습니다 (예 : 단어 삽입, 단어 모음 등).

단어 모음은 텍스트를 숫자 기능으로 벡터화하는 가장 간단한 방법 중 하나입니다. TfIdf는 단어 개념의 가방을 기반으로 한 효과적인 벡터화 기술입니다.

매우 기본적인 수준에서 TfIdf는 전체 텍스트 코퍼스에서 유니 그래프 또는 바이 그램 (일반적으로 n 그램) 세트를 사용하고이를 모든 텍스트 문서 (트윗)의 기능으로 사용합니다. 따라서 텍스트 코퍼스를 숫자 값의 테이블로 상상하면 각 행은 텍스트 문서 (귀하의 경우에는 트윗)가되고 각 열은 유니 그램 (기본적으로 단어)과 각 셀의 값이됩니다. , j)는 트윗 i에서 유니 그램 j의 빈도라는 용어 (트위터에서 특정 유니 그램이 발생하는 횟수)와 unigram j의 문서 빈도의 역수 (트윗의 수 특정 unigram은 결합 된 모든 트윗에서 발생합니다). 따라서 각 지형지 물 (unigram)에 해당하는 숫자 tfidf 값을 갖는 벡터로 트윗 목록을 만들 수 있습니다.

http://scikit-learn.org/stable/modules/feature_extraction.html#the-bag-of-words-representation

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

: 다음 링크에서 볼 TFIDF 구현하는 방법에 대한 자세한 내용은

관련 문제