2011-12-23 3 views
1

XPath를 사용하여 구문 분석하려고하는 xml 파일에 다음 행이 있습니다. XML 파일 자체는 PDFtoHTML 변환기를 사용하여 PDF 문서를 변환하여 가져 왔습니다. 보시다시피 여기에
에 대한 종료 태그를 추가하지 않았습니다. 그래서 tag의 textValue를 잡아 내서 XPath를 실행하려고하면 닫는 태그가 뒤따라야한다는 오류가 발생합니다.
. XPath에서 이것을 극복하려면 어떻게해야합니까? Hovewer, 브라우저에서 파일을 열면 모든 것이 브라우저에서 올바르게 렌더링됩니다.닫는 태그를 무시하는 XPath

<DIV style="position:absolute;top:222;left:143"> 
    <nobr> 
    <span class="ft8">Dear Mr. AMIT KUMAR, 
     <br>We are happy to enclose<br>31st March, 2011 
    </span> 
    </nobr> 
</DIV> 

감사 Abhishek S 당신이 게시 한 무엇

답변

4

은 XML이 아니다. 이것을 XPath로 극복 할 수는 없습니다.

HTML을 생성 한 후 HTML Tidy을 사용하여 XML로 만들거나 PDF를 올바른 형식의 XML로 변환하는 변환기를 사용해 볼 수 있습니다.

+0

폴이 맞습니다. HTML과 XML을 혼동 할 수 없습니다. HTML 태그는 **
**와 같은 닫는 태그가 필요하지 않습니다. 반면 XML은 열리는 각 태그에 닫는 태그를 넣어야합니다. –

+0

HTMLCleaner는 HTML 컨텐트에 xml으로 액세스 할 때 매우 유용합니다. http : // htmlcleaner.sourceforge.net) – Edd

+0

폴 감사합니다, 지금 유틸리티를 확인하십시오. 또한 시작 태그가 알파벳 대소 문자 차이가있는 and the closing tag is 인 경우 유틸리티가 대소 문자를 동일하게 만듭니다. 알고 계십니까? –

관련 문제