2013-06-30 2 views
2

나는 야생에서 방문 페이지를 비교하고 있습니다. 나는 주 헤더와 행동 촉구를 꺼내려고 노력하고 있지만, 물론 페이지의 HTML 서식은 격렬하다.페이지에서 가장 큰 텍스트를 식별하기위한 Nokogiri 전략?

머리글 태그가 우선 순위에 해당한다고 가정하고 H1, H2 등을 찾기 시작했습니다.하지만이 경우는 흔하지 않습니다. 렌더링 된 font-size *는 더 나은 표시기 일 수 있습니다. 그러나 이것은 지저분 해 보이고 alt 태그가있는 이미지가 사용되는 경우를 처리하지 못합니다.

Nokogiri를 사용하여 100 개의 야생 방문 페이지의 주요 표제를 식별하는 좋은 전략은 무엇입니까?

* 렌더링 된 글꼴 크기에 대한 영리한 선택기가 있습니까?

+1

헤더에 h1/2 님의 신의 축복이 없다면 –

답변

2

문서의 가장 의미 론적으로 중요한 부분을 결정할 수있는 AI를 실행하지 않는 한 수행 할 수 없습니다.

헤더 나 메타 태그 등의 태그는 완전히 누락 될 수 있으므로 셀 수 없습니다.

CSS는 일을 어디에서든지 이동할 수 있기 때문에 소스의 위치를 ​​셀 수 없습니다.

그리고 CSS를 보면서 찍은 사람이라도 자바 스크립트는 모든 것을 무시할 수 있기 때문에 현실에서 벗어날 수 있습니다. 인간의 눈과 두뇌가 필요하다는 사실에 의지합니다. 최종 렌더링 페이지

기본적으로 페이지 내용을 이해하고 동의어와 어근어와 함께 단어의 빈도를 결정할 수있는 코드가없는 한 기본적으로 어둠 속에서 촬영됩니다. CSS 및 JavaScript를 실행 한 후 페이지에서의 게재 위치를 결정하십시오.

많은 대기업들이 많은 돈을 쓰는 것은 정말 힘든 일입니다.

+0

동의합니다. 이 작업에 더 많은 시간을 할애하고 데이터 집합에 추가하는 페이지 세트가 많을수록 발견 할 수있는 에지 사례가 많아집니다. 나는 인간의 확인/정리를 위해 페이지의 스크린 잡기와 나란히 제안 될 80/20 솔루션을 끌어 내기 위해 상대적으로 어리석은 경험적 방법을 사용하고있다. – RSG

+0

그 경로가 내려갔습니다. 키워드 분석을 할 때 코드를 작성할 때 현장에서 박사 학위를 소지 한 언어학 전문가와 협력 할 수있는 이점이있었습니다.이 문제를 해결하는 데 어려움을 겪었던 동일한 경로를 통해 어떻게 결론을 내릴 수 있었는지 정말 흥미 롭습니다. 특별한 너트. 그래도 큰 도전입니다. –

관련 문제