동일한 구조를 공유하는 수천 개의 웹 사이트를 긁어 내야합니다. 블로그에는 메뉴와 제목, 텍스트 및 평점이 있습니다. 불행히도 코드는 매우 다르게 코딩되어 있으며 일부는 수동으로 작성되므로 CSS 선택기를 다시 사용할 수 없으며 아마도 CSS를 사용하지 않을 수도 있습니다.웹 사이트 분류
내가 어떻게 자동으로 분류하고 내 머리카락을 남겨 둘지 궁금해. 내 첫 번째 추측은 lynx 또는 텍스트 브라우저를 사용하여 텍스트의 일부 블록을 가져 와서 크기에 따라 분류하는 것입니다.
더 나은 방법이나 더 정교한 방법을 알고 계십니까?
감사합니다.
위대한 참고 자료입니다 (감사합니다). 실제로 문서의 텍스트 콘텐츠를 식별하는 첫 번째 단계는 실제로 해결되지만 다른 사람들에게도 도움이됩니다. 콘텐츠를 필드로 분류하거나 분류하지 않습니다. –