2013-06-29 4 views
1

많은 웹 사이트의 텍스트 형식으로 연락처 정보를 추출해야합니다. 어떻게 추출 할 수 있습니까? 예를 들어 보겠습니다.많은 웹 사이트에서 특정 데이터를 추출하는 방법

Document doc=Jsoup.connect("http://www.genesyslab.com/").get(); 

여기 사이트에 연결 중입니다. 이 사이트의 제품 정보를 추출하고 싶습니다.

+1

액세스하려는 페이지에서 어떤 HTML 요소가 있고 어떻게 구성되어 있는지 이해해야합니다. 지금 당장 해당 사이트의 제품 목록을 제공 할 수 있지만 이해가되지 않는 경우 조금만 변경하자마자 전체 프로그램이 중단됩니다. 먼저 기본 HTML 자습서를 살펴보아야합니다. – acdcjunior

+1

이전에 'Jsoup'를 사용해 본 적이 있습니까? http://jsoup.org/cookbook/extracting-data/에서 예제를 살펴 보시기 바랍니다. 그러면 자신의 질문에 대답 할 수 있습니다. – Niranjan

+0

사실 저는 jsoup에서 새로운데, 이제는 단일 웹 사이트에서 데이터를 가져올 수 있지만 예를 들어 보겠습니다. 웹 사이트의 모든 데이터를 구문 분석 한 다음 작성해야 할 것은 무엇입니까? – Chintamani

답변

0

필요한 모든 URL을 파일에 넣은 다음 파일을로드하고 루프에서 정보를 추출해야합니다. 예를 들면 다음과 같습니다.

//Load file with urls into array 
for (url : array) { 
    //connect to url 
    //extract data 
    //send data to file 
} 
관련 문제