2011-02-17 4 views
5

원시 URL이 n 개라고 가정하면 뉴스, 블로그, 사진 및 동영상으로 분류 할 수 있습니다.콘텐츠 분류 URL에서

예를 들어 링크가 사용자를 사진으로 연결하는 경우 원시 링크가 이미지의 파일 확장자를 포함하고있어 원본 URL을 사진으로 분류 할 수 있을까요?

동영상, 블로그 및 뉴스의 경우 원시 URL을 분류 할 도메인 집합 (예 : http://www.youtube.com)이 충분하지 않은 것으로 보입니다.

웹 콘텐츠를 검사하여 분류 할 수 있습니까? 아니면 이것을위한 오픈 소스 도구가 있습니까?

+0

URL 분류를 위해 무엇을했는지 궁금하십니까? –

답변

0

다소 안정적으로 분류 될 수있는 유일한 URL은 고유 한 매체 (예 : http://foo.com/foo.jpg이 가장 확실한 이미지 임)를 가리키는 URL입니다. 그렇지 않으면 페이지의 내용을 분석해야합니다.

플래시 객체의 내용에 대한 검색 가능한 단서를 제공하지 않고 Flash에 사진, 비디오 또는 둘 다 포함 할 수 없기 때문에 약간 까다로울 수 있습니다. 충분한 노력만으로도 분명히 극복 할 수 있지만 (Google은 그렇게합니다!) 미디어 관련 라이브러리 라이브러리를 제공하는 오픈 소스 리소스에 대해서는 잘 모릅니다. 이러한 데이터는 프로그래머가 수천만에 이르는 노력의 결과로서 일반적으로 투자 수익 (ROI)을 추구합니다. 예를 들어, ClueWeb09은 다운로드 된 페이지의 데이터 세트이며 검색 알고리즘을 테스트하는 데 사용됩니다. 실제로 정렬되거나 분류되지 않았습니다.

"가끔 도움이 필요하지 않습니다."