2014-12-13 2 views
1

검색 엔진을 만들고 싶습니다. 그래서 그것을 개발하기 위해 nutch와 solr를 사용했습니다. 하지만 웹 사이트의 모든 및 모든 URL을 크롤링 할 수 없으며 검색 결과는 으로 Google처럼 적합하지 않습니다. jcrawler를 사용하여 URL 목록을 가져 오기 시작했습니다. 이제 URL 목록이 있습니다. 그러나 색인을 생성해야합니다. URL 목록을 파일별로 한 줄씩 색인화 할 수있는 방법이 있습니다. 및 결과보기 lucene 또는 solr 또는 다른 Java API프로그래밍 방식으로 URL 목록에서 색인 생성 Java의

답변

1

프로그래밍 방식으로 코드를 작성할 때 어떤 언어를 사용하는지에 따라 프로그램에서 실제로 코드를 작성하는 방식 - URL에서 내용을 가져 와서 색인 생성 전에 해당 내용을 이해합니다. 주로 선택한 프로그래밍 언어에 사용할 수있는 라이브러리에 따라 다릅니다.

Solr 백엔드와 함께 nutch를 계속 사용할 수 있습니다. URL 목록에 입력을 넣고 --depth1으로 설정하십시오. (더 이상 거미가 없도록).

Crawl Anywhere (Solr 백엔드 포함) 및 Scrapy과 같은 다른 "준비"옵션도 있습니다.

"Google만큼 좋지 않습니다"는 달성하려는 목표와 그 접근 방법에 대한 설명이 아닙니다. 검색은 Google의 핵심 제품이며 매우 큰 커스텀 집합을 가지고 있습니다 검색 처리 기술). 자신의 데이터에 특정 문제가 있고이를 표시하는 방법 (일반적으로 해결하려는 작업에 대한 도메인 지식을 보유하고있을 때보다 유용한 결과를 얻을 수 있음)에 구체적이고 구체적인 질문을하십시오.

+0

제가 생각하기에 1에 대한 깊이는 분명히 저에게 효과적 일 것입니다. –

+0

나는 단지 같은 웹 사이트의 Google 맞춤 결과 api만큼 좋지 않은 nutch와 solr로부터 얻은 검색 결과를 비교했습니다. 그래서, 나는 단지 80-90 % 정도면 충분히 근접하고 싶습니다. 따라서 Google과 비교합니다. –

0

Data Import Handler을 사용하여 파일에서 URL 목록을로드 한 다음 색인을 읽고 색인을 생성 할 수 있습니다.

외부 엔티티가 인 rootEntity 플래그가 false로 설정된 중첩 엔티티를 사용해야합니다.

DIH로 약간 연습해야합니다. 따라서 URL을 개별 Solr 문서로 가져와 실제로 URL 내용을 분석하여 URL을 향상시키는 방법을 먼저 배우는 것이 좋습니다.

관련 문제