2013-03-15 5 views
2

웹 수확을 사용하고 있습니다. 그러나, 나는이 URL에서 데이터를 스크랩 할 :웹 수확 - URL 스크랩

http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912

내 코드는 다음과 같습니다

<?xml version="1.0" encoding="UTF-8"?> 

<config> 
    <var-def name="google"> 
    <html-to-xml> 
    <http url="http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912"></http> 
    </html-to-xml> 
    </var-def> 
</config> 

내가 얻을 그러나 :

참조 엔티티 Bezirke에 ';'로 끝나야한다.

나는 웹 수확이 의미하는 바를 ';'로 이해하지 못합니까?

+1

나는 웹을 어떻게 추수 할 것인지 잘 모르겠지만 Jsoup를 사용하도록 권할 것이다. 정말 쉽고 유용합니다. – cwhsu

답변

1

나는 웹 수확에 대해 너무 잘 모르겠지만, 자신의 예는 다음과 같습니다

코드가

<http url = ".."></http> 

있다

<xpath expression="//a[@shape='rect']/@href"> 
    <html-to-xml> 
     <http url="http://www.somesite.com/"/> 
    </html-to-xml> 
</xpath> 

<http url =".." /> 

반면 어쩌면이 문제는? 닫는 태그 필요 없음

1

URL에 앰프를 인코딩해야합니다. &&amp;으로 변경하십시오.