웹 페이지, 특히 태그와 그 안에있는 콘텐츠에서 콘텐츠를 가져올 수 있기를 원합니다. 나는 XQuery와 XPath를 시도했지만 형식이 잘못된 XHTML에서는 작동하지 않는 것으로 보이고 REGEX는 고통스런 일이다.Java 응용 프로그램에서 잘못 형성된 XHTML 페이지를 스크랩하는 가장 좋은 방법은 무엇입니까
더 나은 솔루션이 있습니까? 이상적으로 모든 링크를 요청하고 URL 배열을 가져 오거나 링크 텍스트를 요청하여 링크 텍스트로 문자열 배열을 가져 오거나 모든 굵은 텍스트를 요청할 수 있기를 바랍니다
메이트, 방금 중복 질문 게시에서 나를 구해 줬습니다. :) 내가 더 알아야 할 것이 있습니다. 감사. –
기술적으로 XHTML을 제대로 형성 할 수 없습니다. XHTML의 규정은 그것이 잘 형성되고 유효하다는 것입니다. 절름발이 의견에 사과드립니다. 잘못된 XHTML이 나를 분노하게 만듭니다. –