2014-06-06 3 views
1

검색 엔진이 페이지의 순위를 매길 때 근접성을 이용하지 않는 이유를 말해주십시오. 근접성을 명시 적으로 사용하지 않도록 검색 엔진을 방해하는 한계는 무엇입니까?검색 엔진에서의 근접 검색

답변

0

근접 정보를 직접 사용하려면 색인에서 각 용어에 대한 게시물 목록의 일부로 문서 내의 각 용어에 대한 위치를 저장해야합니다. 위치 인덱싱을위한 전기 목록의 크기는 일반적으로 표준 인덱싱 크기의 4x-5x입니다. 이는 검색 I/O 리소스를 소비 할뿐만 아니라 검색 시간이 느려질 수 있습니다. 검색 점수는 이제 각 일치 항목 (검색어와 검색어 기간)의 위치도 고려해야하기 때문입니다.

그러나 검색 엔진은 잠재 성의 의미 개념을 캡처하는 데 중요한 역할을하기 때문에 단순히 단어 근접을 무시할 수 없습니다. 따라서 표준 및 효율적인 솔루션은 컬렉션에 대한 가장 일반적인 구의 목록을 컴파일하고 이러한 구를 전체적으로 인덱싱합니다 (즉, 거꾸로 된 목록에서 별도의 용어로 취급). 예를 들어, 검색 엔진에는 "독일", "목자"및 "독일 목자"라는 용어에 대한 별도의 게시물 목록이있을 수 있습니다. 이렇게하면 "독일인 목자"라는 구가 포함 된 문서가 독일어 또는 목자 만 일치하는 것보다 더 잘 평가됩니다.

0

그러나 구글은 근접 활용 :

읽기에서 :

http://infolab.stanford.edu/~backrub/google.html

4.5.1 랭킹 시스템이

근접이 떨어져 안타가 얼마나 멀리 기반으로 문서 (또는 앵커)에 있지만 문구 일치에서 "닫지 않음"까지 10 개의 서로 다른 값의 "빈"으로 분류됩니다. 카운트는 모든 유형의 조회뿐만 아니라 모든 유형 및 근접에 대해 계산됩니다. 모든 유형 및 근접 식 쌍에는 유형 -prox-weight가 있습니다.