2012-05-23 3 views
2

위키 피 디아에서 주제의 내용을 가져 오는 간단한 파이썬 응용 프로그램을 직접 작성하려고합니다. 예를 들어, 나는 과일의 페이지 내용을 얻으 려 노력하고있다. apple. 이것은 내 쿼리입니다 :위키 백과 xml을 반환하는 API 쿼리

이 출력 (형식의)의 모습입니다
http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&titles=apple 

:

http://pastebin.com/LNdDjXFj

하지만이 정말 XML처럼 보이지 않는다. 그것은 더 (나는) PHP 같아 보인다. 파이썬으로 이것을 파싱해야할까요, 아니면 더 좋은 방법이 있을까요?

답변

0

PHP가 아니며, 미디어 위키 형식입니다. 형식 MW 페이지에서

봐 (이 구문 분석 된 후에는) http://www.mediawiki.org/wiki/API:Parsing_wikitext

개인적으로, json으로 포맷 된 버전이 나에게 더 잘 보인다.

+0

예, action = parse를 사용해도 다른 결과가 나오지 않습니다. 각 페이지에서 특정 섹션 만 가져 오려면 구문 분석기를 작성해야합니다. 위키피디아의 특정 비트가없는 텍스트를 얻을 수 있기를 바랬습니다. – s5s

+0

이것이 데이터 저장 방법입니다. 밖에 파서의 전체 라이브러리가 있습니다. http://www.mediawiki.org/wiki/Alternative_parsers – FlavorScape

관련 문제