2012-04-25 3 views
2

정규식이 손상되어서 사과드립니다. 사전에 도움을 주실 수있는 분께 감사드립니다. -이 내가 제거 할 무엇공백으로 구분 된 1-2 문자의 연속 세트를 제거하는 정규식

real text that i want to keep i e 2 2 1 i h i i i E h i L h R 9 more real text 
i e 1 i tr L h R 1 i L ? i j 1 more real text that i want to keep d i j 0 etc... 

당신은 발생 "정크"텍스트의 섹션을 볼 수 있습니다 다음과 같이

나는 텍스트가 있습니다. 나는 반드시 100 % 정확도를 찾지는 않지만,이 섹션의 대부분을 제거 할 수있는 정규식을 원합니다. 정크 텍스트는 한두 개의 문자가 연속적으로 4 번 이상 나오고 그 다음에 공백이 오는 부분으로 간주합니다.

태그에서 언급했듯이 저는 C#으로 작업하고 있습니다. 다시 한번 감사드립니다.

+0

당신이 문자열에서 제거 싶은 것이 더 spcific 될 수 있을까? 내 추측은 그들이 함께있을 때 (역순으로) 1과 2로 연결된 모든 것입니다. 내가 맞습니까? –

답변

3

이와 비슷한 기능이 있습니까?

허용 할 문자를 알고있는 경우 더 정확하게 일치 시키려면 전체 기간/마침표로 대체 할 수 있습니다.

2

그냥 다른 정규식 솔루션 : (\s+(\S{1,2}(?=\s))){2,}

관련 문제