2017-12-01 5 views
0

나는 spaCy와 python을 사용하여 sklearn에 대한 텍스트를 정리하려고합니다. 나는 루프 실행spaCy 및 텍스트 청소 '<br /><br />'

for text in df.text_all: 
    text = str(text) 
    text = nlp(text) 
    cleaned = [token.lemma_ for token in text if token.is_punct==False and token.is_stop==False] 
    cleaned_text.append(' '.join(cleaned)) 

을 그리고 그것은 매우 잘 작동하지만, 일부 텍스트의 내부 <br /><br />에 나뭇잎. 그 필터는 아니지만 token.is_punct==False 필터에 의해 제거 될 것이라고 생각했습니다. html 태그와 같은 것을 찾았지만 아무 것도 찾을 수 없었습니다. 아무도 내가 뭘 할 수 있는지 아니?

import re 

# ... 
cleaned = [token.lemma_... 

clean_regex = re.compile('<.*?>') 
cleantext = re.sub(clean_regex, '', ' '.join(cleaned)) 

cleaned_text.append(cleantext) 

참고 :

+0

당신은 항상 파이썬 외부에서 데이터 집합을 사전 처리 할 수 ​​있습니다. 아래 명령을 사용하십시오. cat FILE_NAME | sed -r 's/\
\
// g'> NEW_FILE_NAME –

답변

0

당신은 정규식을 사용하여 텍스트합니다 (<br /> 태그 이외의) 어떤 '<'문자가 포함 된 경우,이 방법이 도움이

희망을 작동하지 않습니다!

관련 문제