나는 위키 백과에서 기사를 구문 분석하려고합니다. * page-articles.xml 파일을 사용하여 위키 코드 형식으로 기사를 모두 백업합니다. 형식을 제거하고 원본 텍스트를 얻으려면 정규 표현식을 사용하려고하지만 익숙하지는 않습니다. C#을 프로그래밍 언어로 사용합니다. 정규 표현식의 디자이너 인 Expresso에서 약간의 시도를했지만 재치가 끝났습니다. 여기에 내가 달성하고자하는 것입니다 :C에서 Wikicode를 파싱하기위한 정규식
다음과 같은 구조를 포함 할 수있는 텍스트 : [[TextN]] 또는 [[텍스트 1 | TextN]] 또는 [[텍스트 1 | 텍스트 2 | ... | TextN]]
[[....]] 패턴이 Texti에도 나타날 수 있습니다. 나는 다음과 같은 정규식을 시도 텍스트 withhin 구조를 identifing를 들어
TextN
이러한 구조를 교체하려면 :\[\[ (.* \|?)* \]\]
프레소 실행이 하나 무한 루프 보인다. 상대적으로 작은 텍스트를 5 분 후에 테스트 실행을 취소했습니다.
\[\[ .* \]\]
하지만 같은 라인이있을 때 :
[[Word1]] text inbetween [[Word2]]
을 표현, 전체 라인을 반환하지
그럼 좀 더 간단한 일이, 내가 괄호 사이에 아무것도 캡처하려는 시도
[WORD1]
[Word2]
여기에서 Regex-Expert의 조언을 통해 문제를 해결할 수 있습니까? 사전에
감사합니다, 프랭크
중첩 태그에서 실패합니다 : [[[NestedTag]]] –
SealedSun이 지적했듯이 중첩 태그를 처리 할 수있는 RegEx가 필요합니다. – Aaginor
중첩 태그는 어떻게 처리합니까? 중첩 태그로 무엇을하고 싶습니까? Treat는 따로 처리되었거나 중첩 된 대괄호를 제거합니까? – Lazarus