나는 야생에서 방문 페이지를 비교하고 있습니다. 나는 주 헤더와 행동 촉구를 꺼내려고 노력하고 있지만, 물론 페이지의 HTML 서식은 격렬하다.페이지에서 가장 큰 텍스트를 식별하기위한 Nokogiri 전략?
머리글 태그가 우선 순위에 해당한다고 가정하고 H1, H2 등을 찾기 시작했습니다.하지만이 경우는 흔하지 않습니다. 렌더링 된 font-size *는 더 나은 표시기 일 수 있습니다. 그러나 이것은 지저분 해 보이고 alt 태그가있는 이미지가 사용되는 경우를 처리하지 못합니다.
Nokogiri를 사용하여 100 개의 야생 방문 페이지의 주요 표제를 식별하는 좋은 전략은 무엇입니까?
* 렌더링 된 글꼴 크기에 대한 영리한 선택기가 있습니까?
헤더에 h1/2 님의 신의 축복이 없다면 –