2009-09-02 9 views
0

나는 어떤 식 으로든 분류 할 필요가있는 X 사이트 목록을 가지고 있습니다. 자동차, 건강, 제품에 관한 사이트인가요? (wikihow, about.com 등) 모든 것에 관한 것입니까? 이와 같은 사이트를 분류하는 더 좋은 방법은 무엇입니까? 트래픽을 사이트로 가져 와서 사용하는 키워드를 얻어야합니까? 임의의 페이지의 내용을 읽고 그것을 판단해야합니까?사이트 목록을 분류하는 가장 좋은 방법은 무엇입니까?

+0

... 무엇입니까? 너는하려고하는거야? 검색 엔진은 키워드, 구문, 링크 및 기타 모든 것을 분석해야합니다. – collimarco

답변

1

사이트가 잘 설계되어 있다면 특별히 헤더에 메타 태그가 있습니다.

+1

<0.1 %의 인터넷 사이트가 "잘 디자인되어 있습니다";-) –

0

이것은 어려운 질문입니다. 고려 :

  • 분류가 얼마나 자세합니까?
  • 자신의 기준 또는 사이트에서 제공 기준에 따라 사이트를 분류 하시겠습니까? 즉, 사이트가 "오토바이 유지 보수를위한 최고의 소스"로 분류되는 경우 해당 사이트에 대해서만 "오토바이 유지 보수"카테고리를 만들고 싶습니까? 이것은 물론 목록이 모순이 될 수 있습니다. 그러나 사이트를 자신의 분류 체계에 따라 비둘기를하면 정보가 손실되며 사이트가 정의한 범주 중 하나와 일치하지 않을 위험이 있습니다.
  • 하위 카테고리를 허용합니까? 문제가 있다면 훨씬 더 복잡해집니다.
  • 사이트가 둘 이상의 범주에 속할 수 있습니까? 그렇다면 주문 또는 중량 (예 : 기본 카테고리, 보조 카테고리 등)이 있습니까, 아니면 SO 태그와 비슷한 계획을 따르십니까?

문제의 초기 찌르기로서 나는 일련의 범주를 정의한 다음 각 범주 이름의 발생 횟수 또는 그 변이를 추적하여 각 사이트를 거미로 삼을 것이라고 생각합니다. 그런 다음 가장 많은 수의 "조회수"가있는 이름을 선택할 수 있습니다.

제목이의 책 선종의 제목에 어울리지 않는 플레이가 : 사이트에서 텍스트의 다음 블록 스파이더가 퍼가

{ "Cars", "Motorcycles", "Video Games" } 

: 다음과 같은 범주 주어진 예를 들어

, Eugen Herrigel의 양궁 기술. 그 소개에도 불구하고 Pirsig은 제목에도 불구하고 "정통 불교의 관행에 관한 사실적인 정보의 위대한 몸과 결코 관련되어서는 안된다. 오토바이 중 하나에 대해서는 사실이 아니다"라고 설명한다.

과 : 1980 이후

대부분의 오토바이가 제대로 유지하면 꽤 신뢰할 수 있지만 그 경우 큰입니다.어느 정도 오늘날의 높은 신뢰성은 오토바이 많은 라이더의 단점에 일했습니다. 어떤 라이더들은 오토바이가 현대 자동차과 같고 유지 보수가 필요 없다고 믿는 것으로 시달렸습니다. 이는 사실이 아닙니다 (심지어 ). 현대 자전거는 60 년대와 70 년대보다 유지 보수가 덜 필요하지만 여전히 자동차보다 훨씬 더 정비가 필요합니다. 이 높은 신뢰성은 자전거를 타는 방법이나 신뢰성을 확보하기 위해 실제로해야 할 일이 전혀없는 많은 오토바이 운전자가 있다는 것을 의미합니다.

우리는 다음과 같은 점수를 얻을 :

{ "Cars" : 3, "Motorcycles" : 4, "Video Games" : 0 } 

을 우리는 따라서 대부분을 "오토바이"와 관련된 것으로 사이트를 분류 할 수 있습니다.

"오토바이"또는 "자동차"가 모두 감지되므로 범주 이름과 관련하여 "그 변이"라고 말했음에 유의하십시오. 이를 통해 관련 단어 목록을 사용하는 것이 좋습니다. 예를 들어, 아마도 "오토바이"의 인스턴스를 검색 할 때 "오토바이"라는 단어를 감지해야합니다. 아마 우리는 "현대 자전거"도 보아 왔어 야합니다.

또한 이러한 히트를 저장하고 다른 데이터와 결합하여 베이지안 확률을 사용하여 사이트가 가장 잘 들어 맞는 범주를 결정할 수 있습니다.

1

어쩌면 저는 약간 편향되어 있습니다 (면책 조항 : 저는 도서관 과학 학위를 가지고 있으며,이 주제는 학위 취득 이유 중 하나입니다). 가장 쉬운 대답은 최선의 방법이 없다는 것입니다.

데이터베이스 설계와 마찬가지로 이것을 고려하십시오. 일단 시스템을 채우게되면 어떤 종류의 질문을 할 것입니까?

정부가 운영하는 사이트가 중요한가요? 아니면 플래시를 사용합니까? 아니면 페이지가 파란색입니까? 아니면 애호가 사이트입니까? 또는 대상 잠재 고객이 어린이입니까?

그런 다음 우리가 우려하는 측면에 대한 계층 적 범주가 있는지의 여부를 묻습니다. 오토바이에 관한 것이라면 '차량'이라는 용어를 사용해야합니까? 대신에? 그리고 그렇게하면 '오토바이'가 더 넓은 용어 (예 : 차량)와도 일치하도록 키워드 확장을 사용합니까?

그래서 ... 요점은 ... 귀하의 필요가 무엇인지 파악하고 그쪽으로 작업하십시오. 'Best'는 수년간의 개선에도 불구하고 결코 오지 않을 것입니다. (용어가 의미를 바꾸기 시작하면 더 어려워집니다. '웹 로그'가 웹 서버 메트릭과 관련이있을 때를 기억하십시오.)

관련 문제