웹 크롤링 평가?

I 크롤링 포커싱 웹 (일명 국소 웹 크롤링)에서 본, 평가 메트릭 - 수확 비 - 다음과 같이 정의된다 : 't'페이지 수확 비 = number_of_relevant_pages/pages_crawled (t) 크롤링 후.웹 크롤링 평가?

예를 들어 100 페이지를 크롤링 한 후 80 개의 참 긍정을 얻은 후 해당 시점에서 크롤러의 수확 비율은 0.9입니다. 그러나 크롤러는 크롤링 도메인과 완전히 관련이있는 크롤링에서 일부 페이지를 무시했을 수 있지만 평가 비율은 고려하지 않았습니다. 이게 뭐야? 완전히 관련성이없는 누락 된 페이지를 포함하도록 평가 기준을 개선 할 수 있습니까? 이 고려 사항이 중요합니까?

출처

2012-06-25 KillBill

초점이 맞춰진 크롤링에 대한 가장 기본적인 평가는 정밀도와 리콜로 F- 측정 값으로 집계 할 수 있습니다. 이 페이지가 특정 키워드와 관련된 방법에 더 관심이 있다면

http://en.wikipedia.org/wiki/Precision_and_recall

http://en.wikipedia.org/wiki/F1_score

, 당신은 TF/IDF (장기 주파수 역 문서 빈도)

http://en.wikipedia.org/wiki/Tf를 사용하려면 * idf

출처

2012-06-25 07:14:12

하지만 모두 크롤링 된 컬렉션을 기반으로 평가됩니까? 그러나 크롤링되지 않은 관련 페이지는 어떻게됩니까? 내 말은, 나는 높은 평가 점수를 얻을 수도 있지만, 나는 관련성이있는 일부 페이지를 크롤링하지 않았을 수 있습니다. 따라서 크롤러가 평가에 표시되지 않는 문제입니다. 그 해결책은 무엇입니까? – KillBill

내 대답을 편집하여 특정 키워드에 대한 페이지의 관련성을 평가하는 방법을 보여줍니다. –

안녕하세요, 제 질문을받지 못했습니다. 위의 내 코멘트를 읽어주십시오 – KillBill

웹 크롤링 평가?

답변

관련 문제