NLTK를 사용하여 목록 요소에서 불용어를 제거하고 있습니다. 여기파이썬에서 NLTK를 사용하여 불용어 제거
dict1 = {}
for ctr,row in enumerate(cur.fetchall()):
list1 = [row[0],row[1],row[2],row[3],row[4]]
dict1[row[0]] = list1
print ctr+1,"\n",dict1[row[0]][2]
list2 = [w for w in dict1[row[0]][3] if not w in stopwords.words('english')]
print list2
문제는이 만 중지 단어를 제거하지 내 코드하지만, 예를 들어, 즉에서 또한 제거하고 문자 단어 'orientation'에서 'i'를 선택하면 더 많은 불용어가 제거되고 list2에 단어 대신 문자가 저장됩니다. 즉 [ 'O', 'r', 'e', 'n', 'n', '', 'f', ''3 ',' ','r ','e ' ','n ','\ n ','\ n ','O ','r ','e ','n ','n ' ',' ',' ',' ',' ','r ','e ','r ','e ',' ','r ','p ' ...................... [ '오리엔테이션', '.............. ......
먼저 단어를 토큰 화해보십시오. – galaxyan
코드에 cur이 무엇입니까? 컨텍스트 코드를 더 게시 할 수 있습니까? –