나는 Scrapy를 사용하여 폐품 처리 중이 야.URL에있는 치료, 해시 태그
나는 Scrapy가 해시 태그의 URL을 끝까지 제거한다는 것을 알았습니다. 여기
쉘의 출력입니다 : 때문에 일부 항목이 선택되지 않는 이유를 알아 내려고 몇 시간 후[s] request <GET http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C#/ref=sr_nr_p_8_0?rh=n%3A165796011%2Cn%3A%212334086011%2Cn%3A%212334148011%2Cn%3A3006339011%2Cp_8%3A2229010011&bbn=3006339011&ie=UTF8&qid=1309631658&rnid=598357011>
[s] response <200 http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C>
이 정말 내 폐기에 영향을 미치는, 나는 깨달았다 긴에서 제공하는 HTML URL은 짧은 URL과 다릅니다. 게다가, 일부 관측 후에, 일부 핵심 부분에서 내용이 변경됩니다.
Scrapy가 전체 URL을 유지하도록이 동작을 수정하는 방법이 있습니까?
귀하의 의견과 제안에 감사드립니다.
답변 덕분에 URL에서이 해시 태그의 개념을 알 수있었습니다.기본적으로 JAX 요청은 응답을 생성합니다. JSON을 구문 분석해야하는 경우입니다. 아래의 Scrapy 예제는 주제에 대해 명확한 점을 제시합니다. 다음은 참조할만한 문서입니다. http://blog.scrapy.org/scraping-ajax-sites-with-scrapy http://code.google.com/web/ajaxcrawling/docs/ getting-started.html – romeroqj