2011-03-01 2 views
2

동일한 구조를 공유하는 수천 개의 웹 사이트를 긁어 내야합니다. 블로그에는 메뉴와 제목, 텍스트 및 평점이 있습니다. 불행히도 코드는 매우 다르게 코딩되어 있으며 일부는 수동으로 작성되므로 CSS 선택기를 다시 사용할 수 없으며 아마도 CSS를 사용하지 않을 수도 있습니다.웹 사이트 분류

내가 어떻게 자동으로 분류하고 내 머리카락을 남겨 둘지 궁금해. 내 첫 번째 추측은 lynx 또는 텍스트 브라우저를 사용하여 텍스트의 일부 블록을 가져 와서 크기에 따라 분류하는 것입니다.

더 나은 방법이나 더 정교한 방법을 알고 계십니까?

감사합니다.

답변

6

페이지를 분해하려면 http://code.google.com/p/boilerpipe/을 조사하십시오.

분류는 mahout.apache.org에서 확인하십시오.

+0

위대한 참고 자료입니다 (감사합니다). 실제로 문서의 텍스트 콘텐츠를 식별하는 첫 번째 단계는 실제로 해결되지만 다른 사람들에게도 도움이됩니다. 콘텐츠를 필드로 분류하거나 분류하지 않습니다. –

2

내 제안은 두 가지 주요 부분으로 문제를 나누는 것입니다.

모든 웹 사이트가 모두 동일한 구조로 동일하게 코딩 된 것처럼 분류 부분을 작성하십시오.

그런 다음 각 웹 사이트의 실제 구조를 찾을 수 있도록 스크 레이 핑 부분을 작성하고 분류 부분의 이상적인 구조에 해당 구조를 매핑합니다.

+0

그리고 여러분이 그것에있는 동안, 멈추는 문제를 해결하십시오 :-) 이것은 크고 힘든 일이며, 많은 사람들이 시간을 많이 쏟아 붓고 있습니다. – bmargulies

+0

@bmargulies : 나는 멈추는 문제를 찾아야했다. :-) 질문의 포스터는 그의 분류가 실용적인지 판단하기에 충분한 세부 정보를 제공하지 못했습니다. 나는이 유형의 질문에 대한 일반적인 "분열과 정복"해답을주었습니다. –

+0

미안하다. 나는 미안하다. – bmargulies