Hello R의 XML 패키지 사용자xml 파일에서 HTML xml이 발생하고 HTML 엔터티가 발생 함
XML을 구문 분석하는 동안 이상한 버그가 발생합니다. XML 파일을 파싱하는 동안 mdash 및 ndash와 같은 HTML 엔티티가 발생하는 것과 관계가 있습니다. 나는 목록을 참조로, 정말 지루한
InText = readLines(xmlFileName,n=-1)
Text = xmlValue(xmlRoot(xmlTreeParse(InText,trim=FALSE)))
나는 현재 mdash 같은 이러한 요소를 제거하고 다음과 같은
InText = gsub("\\&mdash"," ",InText);
InText = gsub("\\&ndash"," ",InText);
를 사용하여 ndash를하지만이 할 수 있습니다
이
내가 사용하는 코드입니다 가능한 HTML.4.0 엔티티 목록.SHIVANI