2012-05-27 1 views
1

Hello R의 XML 패키지 사용자xml 파일에서 HTML xml이 발생하고 HTML 엔터티가 발생 함

XML을 구문 분석하는 동안 이상한 버그가 발생합니다. XML 파일을 파싱하는 동안 mdash 및 ndash와 같은 HTML 엔티티가 발생하는 것과 관계가 있습니다. 나는 목록을 참조로, 정말 지루한

InText = readLines(xmlFileName,n=-1) 
Text = xmlValue(xmlRoot(xmlTreeParse(InText,trim=FALSE))) 

나는 현재 mdash 같은 이러한 요소를 제거하고 다음과 같은

InText = gsub("\\&mdash"," ",InText); 
InText = gsub("\\&ndash"," ",InText); 

를 사용하여 ndash를하지만이 할 수 있습니다

내가 사용하는 코드입니다 가능한 HTML.4.0 엔티티 목록.

SHIVANI

답변

1

을 도와

덕분에 많은 아이디어 를 XML 파일을 구문 분석하는 동안 당신은 단순히 정규식을 사용하는 모든라는 이름의 HTML 엔티티를 제거하려면 내가 이것들을 제거 할 수있는 방법에 대한 아이디어 :

library("XML") 

InText <- "<html>\ 
<head>\ 
    <title>Test &amp; Test again</title>\ 
</head>\ 
    <body>Hello &nbsp; world</body>\ 
</html>" 

InText <- gsub("\\&[^;]+;","",InText) 

Text <- xmlValue(xmlRoot(xmlTreeParse(InText,trim=FALSE))) 
관련 문제