2011-05-16 14 views
0

나는 simle 웹 크롤러를 작성했습니다. 나는 나의 hdd에 모든 웹 사이트 및 그 (것)들을 그러나 가져왔다. 이제 분석하고 싶습니다. 따라서 www.google.de와 같은 간단한 인터페이스를 작성하고 가져온 페이지의 정보를 검색 할 수 있습니다.웹 크롤러가 발견 된 페이지를 분석했습니다.

문제는 "빠른"방법으로 중요한 정보를 찾는 방법입니다. 따라서 계산이 중요합니다. 실시간 또는 가져 오기 이후 일 수 있습니다. 내 생각은 영어 단어 목록을 가진 이력서를 작성하고 항목을 계산하는 것입니다 ... 또는 무엇을해야합니까? 정보를 추출하고 압축하는 법을 강의해야합니다. 그러나 나는 어디에서보아야하는지 모른다.

러는 링크가 저장된 MySQL과 C++에 기초한다.

제 질문이 분명히 희망적입니다. : D

이 BTW 내 나쁜 영어에 대한 SRY하지만 독일어이 같은 보드가 istn : P

답변

1

정보 검색 (IR)의 과학은 복잡 하나입니다.

당신은 표준 텍스트의 봤어? 마찬가지로 :

소개 크리스토퍼 D. 매닝, 프라 바 카르 라 하반 및 하인릭 Schütze에 의한 정보 검색 (2008년 7월 7일)에 - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

정보 검색 : 구현 및 스테판 Büttcher, 찰스 LA 클라크와 고든 평가 검색 엔진 V. 코맥 (2010년 7월 23일) - 더 아마존의 '정보 검색'에 대한 http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

검색합니다.

또한 검색을위한 웹 사이트를 스파이더에 대한 일반적인 구조를 설명 Design Question for Notification System에 대한 내 대답은 한 번 봐 걸릴 수 있습니다.

+0

안녕하세요, 감사합니다. 무엇을 찾고 있는지 : P – Roby

관련 문제