0
나는 spaCy와 python을 사용하여 sklearn에 대한 텍스트를 정리하려고합니다. 나는 루프 실행spaCy 및 텍스트 청소 '<br /><br />'
for text in df.text_all:
text = str(text)
text = nlp(text)
cleaned = [token.lemma_ for token in text if token.is_punct==False and token.is_stop==False]
cleaned_text.append(' '.join(cleaned))
을 그리고 그것은 매우 잘 작동하지만, 일부 텍스트의 내부 <br /><br />
에 나뭇잎. 그 필터는 아니지만 token.is_punct==False
필터에 의해 제거 될 것이라고 생각했습니다. html 태그와 같은 것을 찾았지만 아무 것도 찾을 수 없었습니다. 아무도 내가 뭘 할 수 있는지 아니?
import re
# ...
cleaned = [token.lemma_...
clean_regex = re.compile('<.*?>')
cleantext = re.sub(clean_regex, '', ' '.join(cleaned))
cleaned_text.append(cleantext)
참고 :
당신은 항상 파이썬 외부에서 데이터 집합을 사전 처리 할 수 있습니다. 아래 명령을 사용하십시오. cat FILE_NAME | sed -r 's/\
\
// g'> NEW_FILE_NAME –