2012-01-27 2 views
1

스캔 한 텍스트가 있고 단어 내에 약간의 가비지 문자가있을 수 있습니다. 가비지 문자는 일반적으로 영숫자 또는 구두점이 아닙니다.Python - 가비지 문자가있는 단어를 찾으려면 정규 표현식을 사용하십시오.

garbage_pat = re.compile(r"(\w*(?P<and>[^a-zA-Z0-9_ \t\n\r\f\v,.?!;:])+[\w(?P=and)]*)") 

이 정규식은 제대로 한 쓰레기 문자가 포함 된 단어를 찾습니다

나는 다음과 같은 정규식이있다. 두 개 이상의 가비지 문자가있는 경우 정규식이 단어를 분할합니다. 예를 들어 aut ~ mo il은 두 단어로 나뉩니다. 어떻게 정규식에 두 개 이상의 가비지 문자가 포함되어 있으면 전체 단어를 반환 할 수 있습니까?

답변

1

당신이 이런 식 찾고있는 것으로 보인다 :

(\w*(?:[^a-zA-Z0-9_ \t\n\r\f\v,.?!;:]\w*)+) 
+0

덕분에, 제대로 작동합니다. – user963386

관련 문제