2
위키 피 디아에서 주제의 내용을 가져 오는 간단한 파이썬 응용 프로그램을 직접 작성하려고합니다. 예를 들어, 나는 과일의 페이지 내용을 얻으 려 노력하고있다. apple. 이것은 내 쿼리입니다 :위키 백과 xml을 반환하는 API 쿼리
이 출력 (형식의)의 모습입니다http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&titles=apple
:
하지만이 정말 XML처럼 보이지 않는다. 그것은 더 (나는) PHP 같아 보인다. 파이썬으로 이것을 파싱해야할까요, 아니면 더 좋은 방법이 있을까요?
예, action = parse를 사용해도 다른 결과가 나오지 않습니다. 각 페이지에서 특정 섹션 만 가져 오려면 구문 분석기를 작성해야합니다. 위키피디아의 특정 비트가없는 텍스트를 얻을 수 있기를 바랬습니다. – s5s
이것이 데이터 저장 방법입니다. 밖에 파서의 전체 라이브러리가 있습니다. http://www.mediawiki.org/wiki/Alternative_parsers – FlavorScape