2012-11-01 4 views
3

나는 웹 사이트의 콘텐츠에 대한 색인을 생성하고 있으며 URL을 기반으로하는 분류를 구현하려고합니다.기계 학습을 사용하여 URL을 분류하는 방법은 무엇입니까?

appart 콘텐츠보기 페이지를 탐색 페이지에서 말하고 싶습니다. '콘텐츠보기 페이지'란 일반적으로 제품 또는 서면 기사의 세부 정보를 볼 수있는 웹 페이지를 의미합니다. '탐색 페이지'란 콘텐츠 페이지 또는 다른 특정 목록 페이지에 대한 링크 목록으로 구성된 페이지를 의미합니다.

일부 사이트는 사이트 와이드 키 시스템을 사용하여 콘텐츠를 매핑하지만 대부분의 사이트는 비트 단위로 처리하고 키 매핑을 범위 지정하므로 가능해야합니다.

실제로 사이트에서 URL 목록을 가져 와서 유사성으로 그룹화하고 싶습니다. 나는 이것이 기계 학습으로 할 수 있다고 믿지만, 나는 어떻게 생각할 수 없다. 기계 학습은 광범위한 주제로 보입니다. 특히 내가 무엇에 관해 특히 읽기 시작해야합니까? 어떤 개념, 어떤 알고리즘, 어떤 도구입니까?

+0

주요 결정 : 두 종류의 정보를 배우기 위해 어떤 레이블이 붙은 예제를 갖고 싶습니까? 아니면 자동으로 그룹을 찾고 싶습니까 (더 어렵습니다)? 또한 URL 또는 페이지의 내용 만 URL로 분류하고 싶습니까? 당신이 명확히한다면 나는 몇 가지 제안을 할 수있을 것이다. –

+0

그룹을 자동으로 검색하고 싶습니다. 나는 이것이 더 어렵다는 것을 이해하지만, 또한 더 흥미롭고 도전적이다. 나는 또한 그것이 항상 가능하지 않다는 것을 알고 있습니다. 하지만 검증 된 알고리즘을 구현하고이를 수행 할 수있는 방법을 확인하고 싶습니다. URL을 언급 한 이유는 가능한 한 간단하게 시작하기 때문입니다. 알고리즘을 개선하기 위해 늦게, 더 많은 변수가 작용할 수 있습니다. – Pico

답변

3

이러한 그룹을 자동으로 검색하려면 클러스터링 알고리즘 (K-Means이 가장 많이 사용되는 것으로 생각하면 어떤 언어를 사용할지 선택하지 않아도됩니다.)을 구현하는 것이 좋습니다. 두 가지 범주가 있다는 것을 알고 있으므로 사전에 범주 수를 지정할 수있는 것이 문제를 더 쉽게 만듭니다.

그런 다음 웹 페이지의 기능을 정의하고 k- 수단을 통해 실행하여 어떤 종류의 그룹이 생성되는지 확인하십시오. 당신이 만족스러워 보이는 것을 얻을 때까지 사용하는 기능을 조정하십시오. 웹 페이지 자체에 액세스 할 수 있다면 URL이 아닌 전체 페이지에 정의 된 기능을 사용하는 것이 좋습니다.

+0

이 질문에 대한 답변입니다. 고맙습니다. '클러스터링'과 'K-means'가 키워드입니다. 아마 파이썬을 사용할 것이지만, 그 것이 적절하다는 것은 잘 모르겠습니다. – Pico

2

먼저 탐색/콘텐츠 페이지의 데이터 집합을 수집하고 레이블을 지정해야합니다. 그 후 그것의 아주 똑 바른 앞으로.

어떤 언어를 사용 하시겠습니까? 나는 당신이 단순히 버튼을 누르고 50 개의 이상한 알고리즘의 성능 측정 값을 얻을 수있는 자바 기반 도구 인 Weka을 시도해 볼 것을 제안합니다. 그 다음에 가장 정확하고 배포 할 수있는 것을 알게됩니다.

+0

가능한 한 많은 인간 입력을 없애는 것이 목표입니다. 수동으로 데이터 세트를 작성해야한다면 더 간단한 솔루션이 더 쉽거나 저렴할 수도 있습니다. – Pico

2

HITS 알고리즘으로 AuthorityHub을 분류하려고합니다.

  • 은 내비게이션 페이지입니다.
  • Authority은 콘텐츠보기 페이지입니다.

모든 웹 페이지의 링크를 분석하면 도메인의 모든 웹 페이지에서 HITS를 수행하여 페이지 유형을 찾을 수 있습니다. 아래 그래프와 같이 왼쪽 그래프는 웹 페이지 간의 링크 관계를 보여줍니다. 오른쪽 그래프는 HITS를 실행 한 후 hub/authority에 따라 점수를 표시합니다. HITS는 어떤 레이블도 시작할 필요가 없습니다. 업데이트 규칙은 간단합니다. 기본적으로 하나의 권한 점수 업데이트와 허브 점수 업데이트입니다.

enter image description hereenter image description here

Here

이 가이드 논의 랭크 인/I 위의 두 개의 그래프를 차용 HITS.

Here은 HITS와 정보 검색 방법 (TF-IDF, 벡터 공간 모델 등)을 결합하는 HITS의 확장 버전입니다. 이것은 훨씬 더 유망 해 보이지만 확실히 더 많은 작업이 필요합니다. 나는 순진한 HITS로 시작해서 그것이 얼마나 좋은지 보아라. 그 중 성능을 향상 시키려면 BHITS에 언급 된 몇 가지 기술을 시도하십시오.

+0

이것은 유용한 항목이며이 가능성을 탐구 할 것이지만 여전히 내 질문에 정확하게 답하지는 못합니다. 원래 질문에 대한 내 의견을 확인하십시오. – Pico

관련 문제