2014-04-13 2 views
2

Markdown 태그가 내장 된 문자열이 있습니다. Markdown을 다른 것으로 인코딩하고 싶지는 않습니다. 모든 태그를 제거하려고합니다.문자열에서 Markdown 태그 제거

어떻게하면됩니까? 약 5 백만 개의 텍스트를 처리하는 일괄 처리 작업의 일부로이 작업을 수행해야하므로 속도가 매우 중요합니다.

MarkdownSharp를보고 Transform을 사용했지만이 방법이 최선이라고 생각하지 않습니다. 나는 내부에 태그가없는 평문 출력만을 원한다. 나는 심지어 정규 표현식 제거를 고려하고 있지만, 가장 뛰어난 옵션이 무엇인지 확신 할 수 없다.

+0

마음에 몇 가지 작업 옵션이있는 것 같습니다. 당신의 필요에 맞는다면 그것들을 시험 해보는 것은 어떨까요? – nvoigt

+0

옵션에 대한 깊이있는 지식이있는 사람이 나를 부르면 도움이되기를 바랍니다. 나열된 것보다 더 많은 옵션이 있으므로 XML로 처리하고 XSLT를 적용 할 수도 있습니다. 많은 옵션이 있지만, 나는 그 모든 것을 시도 할 수는 없다. ( – Faraday

답변

2

마크 다운을 Html로 변환 한 다음 HtmlAgilityPack을 사용하여 텍스트를 추출하려면 MarkdownSharp 또는 기타 유사한 라이브러리 (놀랍게도 빠르기 때문에 Strike을 사용하는 것이 좋습니다)를 사용할 수 있습니다.

더 빠른 옵션이지만 더 많은 옵션을 사용하면 기존 Markdown 파서를 수정하여 대신 일반 텍스트를 생성 할 수 있습니다.

+0

안녕하세요 - Strike에 대한 링크를 가져 주셔서 감사합니다. MarkdownDeep (과거에 사용했던 것)과 연결되어 있으며 이제는 일반 텍스트를 지원하는 것처럼 보입니다. 출력 !!! : D – Faraday

+1

정말로? 나는 그것을 몰랐다! :-) 잘 들었습니다. 스트라이크는 놀라 울 정도로 빠릅니다. 그것은 자바 스크립트 라이브러리를위한 랩퍼 일 뿐이므로 느릴 것으로 예상되지만, 그렇지는 않습니다 ... –

+1

MarkdownDeep만큼 빠르지는 않습니다 ...;) – Faraday

관련 문제