나는 웹 사이트의 콘텐츠에 대한 색인을 생성하고 있으며 URL을 기반으로하는 분류를 구현하려고합니다.기계 학습을 사용하여 URL을 분류하는 방법은 무엇입니까?
appart 콘텐츠보기 페이지를 탐색 페이지에서 말하고 싶습니다. '콘텐츠보기 페이지'란 일반적으로 제품 또는 서면 기사의 세부 정보를 볼 수있는 웹 페이지를 의미합니다. '탐색 페이지'란 콘텐츠 페이지 또는 다른 특정 목록 페이지에 대한 링크 목록으로 구성된 페이지를 의미합니다.
일부 사이트는 사이트 와이드 키 시스템을 사용하여 콘텐츠를 매핑하지만 대부분의 사이트는 비트 단위로 처리하고 키 매핑을 범위 지정하므로 가능해야합니다.
실제로 사이트에서 URL 목록을 가져 와서 유사성으로 그룹화하고 싶습니다. 나는 이것이 기계 학습으로 할 수 있다고 믿지만, 나는 어떻게 생각할 수 없다. 기계 학습은 광범위한 주제로 보입니다. 특히 내가 무엇에 관해 특히 읽기 시작해야합니까? 어떤 개념, 어떤 알고리즘, 어떤 도구입니까?
주요 결정 : 두 종류의 정보를 배우기 위해 어떤 레이블이 붙은 예제를 갖고 싶습니까? 아니면 자동으로 그룹을 찾고 싶습니까 (더 어렵습니다)? 또한 URL 또는 페이지의 내용 만 URL로 분류하고 싶습니까? 당신이 명확히한다면 나는 몇 가지 제안을 할 수있을 것이다. –
그룹을 자동으로 검색하고 싶습니다. 나는 이것이 더 어렵다는 것을 이해하지만, 또한 더 흥미롭고 도전적이다. 나는 또한 그것이 항상 가능하지 않다는 것을 알고 있습니다. 하지만 검증 된 알고리즘을 구현하고이를 수행 할 수있는 방법을 확인하고 싶습니다. URL을 언급 한 이유는 가능한 한 간단하게 시작하기 때문입니다. 알고리즘을 개선하기 위해 늦게, 더 많은 변수가 작용할 수 있습니다. – Pico