I 크롤링 포커싱 웹 (일명 국소 웹 크롤링)에서 본, 평가 메트릭 - 수확 비 - 다음과 같이 정의된다 : 't'페이지 수확 비 = number_of_relevant_pages/pages_crawled (t) 크롤링 후.웹 크롤링 평가?
예를 들어 100 페이지를 크롤링 한 후 80 개의 참 긍정을 얻은 후 해당 시점에서 크롤러의 수확 비율은 0.9입니다. 그러나 크롤러는 크롤링 도메인과 완전히 관련이있는 크롤링에서 일부 페이지를 무시했을 수 있지만 평가 비율은 고려하지 않았습니다. 이게 뭐야? 완전히 관련성이없는 누락 된 페이지를 포함하도록 평가 기준을 개선 할 수 있습니까? 이 고려 사항이 중요합니까?
하지만 모두 크롤링 된 컬렉션을 기반으로 평가됩니까? 그러나 크롤링되지 않은 관련 페이지는 어떻게됩니까? 내 말은, 나는 높은 평가 점수를 얻을 수도 있지만, 나는 관련성이있는 일부 페이지를 크롤링하지 않았을 수 있습니다. 따라서 크롤러가 평가에 표시되지 않는 문제입니다. 그 해결책은 무엇입니까? – KillBill
내 대답을 편집하여 특정 키워드에 대한 페이지의 관련성을 평가하는 방법을 보여줍니다. –
안녕하세요, 제 질문을받지 못했습니다. 위의 내 코멘트를 읽어주십시오 – KillBill