'the (the)'
이 'the'
이되도록 문자열에서 반복 단어를 제거해야합니다. 왜 다음과 같이 할 수 없습니까?Python에서 regex를 사용하여 중복 단어 제거
re.sub('(.+) \(\1\)', '\1', 'the (the)')
감사합니다.
당신은 이중 백 참조 탈출 할 필요가'the (the)'
이 'the'
이되도록 문자열에서 반복 단어를 제거해야합니다. 왜 다음과 같이 할 수 없습니까?Python에서 regex를 사용하여 중복 단어 제거
re.sub('(.+) \(\1\)', '\1', 'the (the)')
감사합니다.
당신은 이중 백 참조 탈출 할 필요가:
re.sub('(.+) \(\\1\)', '\\1', 'the (the)')
--> the
을 또는 r
prefix 사용에 "R"또는 "R"접두어가 있으면
, 문자는 백 슬래시 다음 변경되지 않고 문자열에 포함되며 모든 백 슬래시가 문자열에 남아 있습니다.
re.sub(r'(.+) \(\1\)', r'\1', 'the (the)')
--> the
documentation에 따르면 '원시 문자열 표기법 (R "텍스트")는 제정신 정규 표현식을 유지합니다.'
'r'에 +1하면 너무 많은 백 슬래시가 발생하지 않습니다. – eumiro
@eumiro 그래, [관련 문서] (http://docs.python.org/library/re.html#raw-string-notation)에 대한 링크를 찾아야했습니다. :) – jensgram