2012-02-17 4 views
0

wiki xml 덤프에서 lucene을 사용하여 위키 피 디아에 대한 검색 엔진을 만들고 있는데, 특정 쿼리에 대한 Google 위키 결과와 비교할 때 엔진의 정확도를 계산하려고합니다. : en.wikipedia.org "를 찾아보십시오. 여러 검색어에 대해이 작업을 수행하여 Google 검색 결과 URL을 수동으로 가져오고 싶습니다. Google API를 사용하여 Google 검색에 봇을 사용할 수 있지만 문제는 과 같은 특정 유형의 결과를 없애려고합니다. "/ "/ 아이콘 : " "/ 파일 : " "/ photo : " 및 사용자 페이지필터 Google 검색 결과

그러나 반복적 인 쿼리 발행 방법을 사용하고 n 개의 결과를 얻은 다음 정규 표현식을 사용하여 필터링 한 다음 나머지 (nx) 결과를 검색하는 것을 제외하고는이 작업을 수행하는 편리한 방법을 찾지 못했습니다. 곧. Google은 내가 그렇게 할 때 나를 계속 차단합니다.

Google 검색 결과를 Java를 사용하여 원하는 방식으로 가져 오는 지능적인 방법이 있습니까?

미리 감사드립니다.

답변