2014-05-24 1 views
-2

HTML 페이지를 구문 분석하여 저자 이름과 정보를 추출하는 보편적 인 방법이나 좀 더 일반적인 방법이 있습니까?기사/댓글/게시물 등의 작성자를 위해 HTML 페이지를 구문 분석하는 가장 좋은 방법은 무엇입니까?

한 가지 방법은 "작성자", "사용자", "바이 라인"등과 같은 키워드에 대해 HTML 페이지를 구문 분석하는 것이지만 최적의 것으로 보이지는 않습니다.

+1

는 어떤 언어 사용하려는 않았다 (이 부모 요소상의의 itemscope 속성으로 범위 것) 그들이 뭔가의 저자를 포함하는 표시? – MattSizzle

답변

1

많은 웹 사이트가이를 포함하는 HTML 태그에 주석을 달아 이러한 정보를 구체적으로 불러옵니다.

그들이하는 이유는 Google이 데이터를 더 잘 이해하는 데 도움이되지만 사용하는 것을 막을 수있는 방법은 없습니다.

http://schema.org/을 살펴보면 전체 문서를 찾을 수 있습니다. 다음과 같은 속성을 가진

태그 :에는 itemprop = "저자는"

관련 문제