2017-11-07 1 views
0
import pandas as pd 
from nltk.stem import PorterStemmer, WordNetLemmatizer 
porter_stemmer = PorterStemmer() 

df = pd.read_csv("last1.csv",sep=',',header=0,encoding='utf-8') 

df['rev'] = df['reviewContent'].apply(lambda x : filter(None,x.split(" "))) 

Dataset내가 내 dataframe을 막기 위해 노력하고 더 속성 '분할'

이 없습니다. 내가

df['rev'] = df['reviewContent'].apply(lambda x : filter(None,x.split(" "))) 

AttributeError이 오류를 얻고있다 토큰 화하는 동안 : 나는 또한 플로트 문제를

df['reviewContent'] = df["reviewContent"].apply(lambda x: [stemmer.stem(y) for y in x]) 

형식 오류를 얻을 형태소 사용하는 동안 '부동'개체가 어떤 속성을 '분할'

이 없습니다 ' float '객체는 반복 가능하지 않습니다.

어떻게해야합니까?

+0

:

df['rev'] = df['reviewContent'].astype(str).str.split() 

이제 전에 귀하의 형태소 분석기를 실행할 수 있습니까? 예상되는 결과는 무엇입니까? 코드만으로는 도움이되지 않습니다. –

+0

이것은 옐프 가짜 검토를위한 데이터 세트입니다. 내 전체 데이터 집합을 줄이려고합니다. 너무 데이터 집합을 업로드해야합니까 ?? –

+0

처음 5 행은 어떻습니까? –

답변

1

데이터를 토큰 화하는 경우 apply 호출이 필요하지 않습니다. str.split 잘 처리해야합니다. 또한 여러 개의 공백으로 나눌 수 있으므로 빈 문자열을 찾을 필요가 없습니다. 데이터는 어디에

df['rev'] = df['rev'].apply(lambda x: [stemmer.stem(y) for y in x]) 
+0

죄송 점점 다른 오류 : UnicodeEncodeError : 위치 79-80에서 문자를 인코딩 할 수없는 '아스키'코덱 : 나는 오류를 극복하기 위해 다음과 같은 일을 할 havo 범위 (128) 에없는 순서 : 수입 SYS 다시로드 (sys) sys.setdefaultencoding ('utf8') 괜찮습니까? –

+0

마지막으로 한 말을 편집했습니다. 죄송합니다. –

+0

@AshfaqAliShafin 네, 괜찮습니다. 모두 제일 좋다! –

관련 문제