XML 형식의 파일 (루트 시작 및 끝 태그와 루트의 자식으로 구성됨)이 있습니다. 자식의 텍스트 요소는 앰퍼샌드 기호 &을 포함합니다. XML에서는 문서가 유효하도록이 기호를 사용할 수 없으며 Java 및 XML 구문 분석기에서 DOM API를 사용하여 파일을 처리하려고하면 구문 분석 오류가 발생합니다. 따라서 &을 &
으로 바꿨고 파일을 성공적으로 처리했습니다. 다른 일반 텍스트 파일의 텍스트 요소 값을 추출해야했습니다.XML 파일의 특수 문자 - DOM API를 사용한 처리
새로 만든 텍스트 파일을 열었을 때 &
이 표시 될 것으로 예상되었지만 대신 &이 발생했습니다. 왜 이런거야? 확장자가없는 텍스트 파일에 텍스트를 저장했습니다 (XML 형식의 원본 파일에도 .xml 확장명이 없음). 파일을 열어도 관계없이 새 파일의 텍스트에 &이 있습니다. txt 또는 XML 파일 (XML 편집기의 일부 옵션). 정확히 어떻게됩니까? Java (?)는 &
을 &으로 자동 변환합니까? 아니면 기본 인코딩이 있습니까? 글쎄, &
은 &을 의미하며, "보이지 않는"자동 변환이 있다고 가정합니다. 그러나 이것이 언제 어떻게 발생하는지 혼란 스럽습니다.
이 XML 형식으로 내 "negative.review"파일은 다음과 같습니다 :
<review>
<review_text>
I will not wear it as it is too big & looks funny on me.
</review_text>
</review>
이 내입니다 저는 여기에 자바 원본 파일을 처리 한 후 내가받을 내 원래 파일 추출 된 파일의 예입니다 추출 된 파일 "negative_1"나를 위해
I will not wear it as it is too big & looks funny on me.
(모든 변환/교체하지 않고) 그대로 원래의 데이터를 가지고하는 것이 중요하다, 그래서 내가 추출 된 파일 "negative_1"변환을 처리 할 필요가 있다고 생각 뒤로 &
~ &. 보시다시피, 나는 이것을 할 필요가없는 것 같습니다. 그러나 나는 이해하지 않는 이유 :(.
"루트 시작 태그와 종료 태그, 루트 태그의 자식으로 구성됩니다." 바로 XML의 정의입니다 (루트 요소는 하나뿐입니다). – PhiLho
http://stackoverflow.com/questions/4341145/how-to-deal-with-special-characters-in-urls-inside-xml – sandeepKumar