나는 500 개의 회사 목록을 가지고 있습니다. 특정 웹 사이트에 각 이름이 몇 번 나타날지 알아야합니다. SEO가 아니라 StackOfflow에서 특정 이름이 언급되고 있는지 확인하는 것입니다.특정 웹 사이트에서 많은 키워드 목록을 검색하려면 어떻게합니까
감사합니다 당신은 질문이 의미에 대해 사용자가 선택한 태그로, 웹 크롤러를 작성해야거야
나는 500 개의 회사 목록을 가지고 있습니다. 특정 웹 사이트에 각 이름이 몇 번 나타날지 알아야합니다. SEO가 아니라 StackOfflow에서 특정 이름이 언급되고 있는지 확인하는 것입니다.특정 웹 사이트에서 많은 키워드 목록을 검색하려면 어떻게합니까
감사합니다 당신은 질문이 의미에 대해 사용자가 선택한 태그로, 웹 크롤러를 작성해야거야
T. 자연적으로이 두 언어/프레임 워크가 있습니다.
저는 웹 크롤링 응용 프로그램에 Ruby를 사용하고 싶습니다. 내 보석 번들에 포함
Mechanize
Nokogiri
Anemone
기계화는 프로그래밍 방식으로 양식 제출 버튼 또는 페이지 매김 링크와 같은 페이지 요소를 클릭 할 수 있습니다. Nokogiri는 XML을 사용하여 페이지의 요소를 구문 분석 할 수있게합니다. Anemone은 Nokogiri와 Robots gem을 사용하여 몇 줄의 코드만으로 전체 사이트를 크롤링 할 수 있습니다.
웹 스크랩/크롤링에 대해 잘 알고 싶다면 Bastard 's Book of Ruby를 권 해드립니다.
파이썬은 폐기에 대한 몇 가지 훌륭한 라이브러리를 가지고있다. 히치하이커의 파이썬 가이드 (no, 나 do not는 이름을 만들지 않는다 :)로 시작하고 싶어 할지도 모른다 :).
http://docs.python-guide.org/en/latest/scenarios/scrape/
또는이 가이드 웹 스크래핑 (101)
http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/