2009-11-19 4 views
1

안녕하세요. www.google.com, www.ibm.com과 같은 회사 URL 목록이 포함 된 CSV 파일이 있습니다 .....회사 연락처 페이지 URL을 얻는 방법

여기에서 나는 contactus 또는 aboutus를 얻고 싶습니다. 페이지 URL (예 : http://www.google.com/contact)은 csv 파일에있는 각 URL에 대해 다음과 같은 패턴으로 링크를 확인하는 아이디어가 있습니다 (Google, about, locations).

아무 것도 찾지 못한 경우 URL에 플래그를 지정하고 로그 파일에 기록하십시오. 패턴을 찾은 경우 주소를 인쇄하십시오 (일부 다른 프로세스에 사용됨)

답변

2

페이지를 구문 분석하려면 Beautiful Soup을 사용하는 것이 좋습니다. 또 다른 대안은 Mechanical Turk에 HIT를 설치하는 것입니다.

0

치료법이 가장 좋습니다. 치료에 대한 가장 좋은 점은 그것이 오픈 소스라는 것입니다. scrapy documentation