2014-10-06 3 views
0

importIO에서 크롤러 내에서 크롤러를 사용하려면 어떻게해야합니까?가져 오기 IO를 사용하여 데이터 크롤링

예를 들어 회사 세부 정보 목록 (페이지가 매겨진)이 있으며 각 회사에는 검토 목록이 있습니다 (페이지가 매겨져 있음).

각 회사의 "전체"리뷰와 함께 회사의 세부 정보를 크롤링해야합니다. 이것을 어떻게 할 수 있습니까? 두 개의 테이블 (회사 및 리뷰)이 필요합니까? 또한 이것을 위해 importIO을 어떻게 사용할 수 있습니까?

+0

웹 사이트에 링크를 추가 할 수 있습니까? –

답변

2

특정 사이트를 알지 못해서 논평하기가 어렵습니다. 예를 들어 사이트에서 페이지 매김이 구현되는 방식은 데이터를 가져 오는 방식에 영향을 미칩니다. URL 구조도 중요한 역할을합니다.

페이지의 HTML (view source/inspect 요소)에서 원하는 모든 데이터를 볼 수있는 경우 해당 데이터를 API/CSV로 가질 수 있습니다.

  1. 주는 URL을 (플러스 보너스 포인트에 대한 스키마) 여기에 구체적인

  • 이메일 [email protected]가 더 일반적인 대답하기 :

    그래서 당신도 할 필요가 질문 : "importIO에서 크롤러 내에서 크롤러를 사용하려면 어떻게해야합니까?"

    짧은 대답 = 예,하지만 일반 UI를 통하지 않고 코딩을해야합니다.

    긴 답변 = 예! 하나의 크롤링 추출에서 URL을 가져와 나머지 정보를 가져 오는 두 번째 추출기로 피드하는 '연결된 API'라고하는 것을 만들 수 있습니다. 사후 추출 데이터 품질 보증 프로세스에서 일치하는 내용 만 기록하면됩니다.

    원하는 모든 데이터가 단일 URL에 포함되어 있고 모두 가져와야하는 경우가 아니면. 이 경우 한 줄짜리 훈련과 Xpath가 많은 커넥터를 만드는 것이 목표이지만 작동해야합니다!

    은 자세한 내용은 아래 링크에서 기술 자료 문서를 체크 아웃 할 수 있습니다 : http://support.import.io/knowledgebase/topics/51287-tutorials

    감사합니다!