정리해야 할 텍스트가 있으며 대부분 "거의"작동합니다.
def removeStopwords(self, data):
with open(r'stopwords.txt') as stopwords:
wordList = []
for i in stopwords:
wordList.append(i.strip())
charList = list(data)
cat = ''.join(char for char in charList if not char in wordList).split()
return ' '.join(cat)
이 페이지의 첫 번째 줄을보십시오. http://en.wikipedia.org/wiki/Paragraph이 경우에 관심이없는 모든 문자를 제거합니다.이 문자는 모두 영숫자가 아닌 문자입니다.
단락 (그리스어 단락에서 "옆에 쓰다"또는 "옆에 쓰다")은 특정 요점이나 생각을 다루는 서면 담화의 독립된 단위입니다. 단락은 하나 이상의 문장으로 구성됩니다. [1] [2] 단락의 시작은 새 줄에서 시작하여 나타납니다. 때로는 첫 줄이 들여 쓰기되기도합니다. 여러 번, 문단의 시작은 필 크로우 (pilcrow)에 의해 표시되었습니다 : ¶.
단어의 일부가 잘못 조합 된 경우를 제외하고는 출력이 매우 좋아 보이며 수정 방법이 확실하지 않습니다.
옆에 옆에 또는 서면으로 작성하는 그리스 paragraphos에서 단락은 소방대 원 단위
참고 단어 "소방대 원" "소방대 원"이었다이다.
EDIT : 문자 한 묶음 인 중지 단어 파일의 내용.
! $ % ^ 을 & * ( ) {} [ ] <
, . / | \ ? ~ ': ; "
는 난 단지 정말이 경우 문장 부호 있었다 문자를 제거하려고했기 때문에 나는 모든 단어의 목록이 필요하지 않습니다 밝혀졌습니다.
cat = ''.join(data.translate(None, string.punctuation)).split()
print ' '.join(cat).lower()
stopwords.txt의 내용은 무엇입니까? 구두점 기호 목록이 아니라 오히려 말을 멈추시겠습니까? – geoffspear
나는 보통 "stopword removal"을 실제 단어 ("of"또는 "the")를 제거하는 것으로 생각합니다. 하지만 실제로 여기서하려고하는 것은 특정 문자 (예 : 구두점을 지우는 방법)를 제거하는 것입니다. 그 맞습니까? –
@Woble 스톱 워드는 영숫자가 아닌 문자 또는 문자와 숫자 이외의 문자로 가득 차 있습니다. – aeupinhere