2017-09-08 7 views
1

movie_reviews 데이터 세트를 nltk.corpus에서 dataframe으로 변환하려고합니다. 이 데이터는 정서 분석에 사용하는 것이 목적입니다. 팬더를 사용하여 데이터를 변환하는 동안, 나는 오류를 받고 있어요'CategorizedPlaintextCorpusReader'를 데이터 프레임으로 변환

from nltk.corpus import movie_reviews 
    import pandas as pd 

    mr=movie_reviews 
    movie=pd.DataFrame(mr) 

    >> ValueError: DataFrame constructor not properly called! 
+2

@alvas를 참조하십시오. 이제 어떻게 할지를 보여 주셨으니 이제는 "불가능한"주장을 제거해야 할 것입니다 ... – alexis

+0

아, 그래야합니다. "간단하게 그렇게 초기화 할 수 있다고 생각하지 않습니다."=) – alvas

+0

그렇게 간단하게 초기화 할 수 있다고 생각하지 않습니다. " NLTK의'CategorizedPlaintextCorpusReader' 객체는'pandas'를위한'dtype'이 아닙니다. – alvas

답변

1

NLTK의 CategorizedPlaintextCorpusReader 객체는 pandasdtype 없습니다.

말했다되고, 당신은 튜플의리스트에 영화 리뷰를 변환 다음과 같은 dataframe 채울 수 있습니다 :

import pandas as pd 

from nltk.corpus import movie_reviews as mr 

reviews = [] 
for fileid in mr.fileids(): 
    tag, filename = fileid.split('/') 
    reviews.append((filename, tag, mr.raw(fileid))) 

df = pd.DataFrame(reviews, columns=['filename', 'tag', 'text']) 

[OUT] :

>>> df.head() 
      filename tag            text 
0 cv000_29416.txt neg plot : two teen couples go to a church party ,... 
1 cv001_19502.txt neg the happy bastard's quick movie review \ndamn ... 
2 cv002_17424.txt neg it is movies like these that make a jaded movi... 
3 cv003_12683.txt neg " quest for camelot " is warner bros . ' firs... 
4 cv004_12641.txt neg synopsis : a mentally unstable man undergoing ... 

text 열을 처리하기를, How to NLTK word_tokenize to a Pandas dataframe for Twitter data?

관련 문제