2013-07-28 4 views
-1

나는 매우 기본적인 정규화를 시도하고 있으며, 대부분의 경우 정규화는 불가능한 작업이라는 것을 알고 있습니다.parse_url을 사용하여 url을 정규화하는 방법은 무엇입니까?

다른 검색 엔진은 다른 체계, 호스트 등을 사용하여 동일한 검색 결과를 반환합니다. 수집해야하는 가장 기본적인 부분은 무엇이며 URL의 핵심 부분 만 남기고 parse_url로 한 부분 이상을 수집 할 수 있습니까? ?

결과 1 : http://dogs.com 결과 2 : http://www.dogs.com

이 가능하며 다른 검색 엔진에 의해 생성 될 수있는 불일치의 이러한 종류의 t의 계정이 필요

+1

질문에는 "유사"URL에 대한 명확한 설명과 몇 가지 예가 필요하며 정규화가 기대하는 결과가 필요합니다. –

답변

1

결과 1 : http://dogs.com 결과 2 : http://www.dogs.com

이 2는 동일하지 않습니다. 하나는 주 도메인이고 다른 하나는 하위 도메인입니다. 동일한 콘텐츠를 제공한다고 보장 할 수는 없습니다.

당신이 요구하는 것은 기본적으로 불가능합니다. URL의 일부분은 중요하며 다른 부분이 변경 될 수 있습니다.

즉, canonical에 대한 <meta> 태그는 페이지의 정규화 된 URL을 나타냅니다. 해당 URL 만 정확하다는 보장이 있습니다 (다소).

또한 페이지의 콘텐츠를 가져 와서 비교할 수도 있습니다. 하지만 다시는 보증이 없습니다.

관련 문제