br 또는 span .../span 태그 또는 다른 HTML 문자/엔티티를 포함 할 수있는 문자열이 있습니다. 모든 것을 제거하고 나머지 UTF-8 문자를 얻는 강력한 방법이 필요합니다. 이상적으로는 크로스 플랫폼이어야합니다. 이 같은C++ : 문자열에서 모든 HTML 서식을 제거 하시겠습니까?
뭔가 이상적 일 것이다 :
http://snipplr.com/view/15261/python-decode-and-strip-html-entites-to-unicode/
하지만 또한 태그를 제거합니다.
주의,보다 상태가 요구된다. – strager
사실입니다. 그래서 나는 그의 요구 사항이 얼마나 엄격한 지 물었습니다. 태그에서 '>'는 거의 발생하지 않지만 확실히 발생할 수 있습니다. 마찬가지로 잘못된 HTML을 처리하거나 특정 태그에 대해 특별한 조치를 취해야하는 경우 알고리즘이 더 복잡해질 필요가 있습니다. –
OP는 "모든 경우에서 표준을 완전히 이해한다고 가정 할 때 인간이 기대하는대로 작동합니다"라는 의미의 "강력한"상태를 나타냅니다. 따라서 속성에서 ">"을 처리해야 할 수 있습니다. – strager