2013-03-18 2 views
-2

위키 백과의 모든 웹 페이지를 구문 분석해야합니다. 어떻게해야합니까?위키 백과의 모든 웹 페이지를 구문 분석하는 방법은 무엇입니까?

사이트 맵을 통해 할 수 있습니까? 그렇다면 Wikipedia의 사이트 맵은 어디에 있습니까?

+2

위키 백과에서 허가없이 모든 콘텐츠를 추출하는 방법을 알고 싶습니까? 네가 묻고있는거야? – Crontab

+4

전체 사이트를 구문 분석하는 이유는 무엇입니까? Wikipedia는 전체 데이터베이스를 미러링 등에 사용하기위한 다운로드 파일로 제공합니다. http://en.wikipedia.org/wiki/Wikipedia:Database_download –

+1

@Crontab 그는 허가를 받았습니다. 모든 위키피디아 콘텐츠는 [크리에이티브 커먼즈 라이선스] (http://en.wikipedia.org/wiki/Wikipedia:Copyrights) 및 GNU FDL –

답변

5

위키피디아에서는 모든 웹 페이지를 구문 분석하는 대신 download their database을 사용할 수 있습니다. 이것은 Wikipedia가 4 백만 개가 넘는 기사를 가지고 있기 때문에 일반적으로 훨씬 더 빠르기 때문에 선호되는 방법입니다.

또한 위키 백과에서 더 공정하고 공격적인 크롤링을 위해 사용자를 차단하지 않습니다. 읽어주세요 this policy

+0

에는 모든 위키 피 디아의 이탈리아 웹 페이지 제목 만 표시되는 방법이 있습니까? 감사합니다 :) – xRobot

+0

@xRobot [documentation] (http://www.mediawiki.org/wiki/Manual:Database_layout)을 검토하십시오. ** 힌트 ** : 특히, 'page_title' 필드가있는 [page] (http://www.mediawiki.org/wiki/Manual:Page_table) 테이블을 확인하십시오. –

관련 문제