2016-07-08 1 views
0

위키 덤프의 테이블에서 데이터를 추출하는 것이 편리합니다. 리스트의리스트. 그러나 덤프의 형식으로 인해 일종의 까다로운 것으로 보입니다. 나는 WikiExtractor을 알고 있는데, 이것은 덤프에서 깨끗한 텍스트를 얻는데 유용하지만, 테이블을 모두 삭제합니다. 같은 방식으로 테이블을 편리하게 읽을 수있는 파서가 있습니까?덤프에서 Wikpedia 테이블을 구문 분석 할 수있는 기존 라이브러리가 있습니까?

+0

여기에서 확인 유무 : https://www.mediawiki.org/wiki/API:Main_page –

+0

@joelgoldstick , 나는 [파서리스트 페이지] (https://www.mediawiki.org/wiki/Alternative_parsers)를 보았고, 나는 그것들 중 몇 가지를 들여다 보았다. 나는 아직 나의 요구에 맞는 것을 찾는다. (XML 덤프, 파이썬 또는 독립 실행 형). 그 중 일부 (예 : DizzyLogic, 심지어 액세스 할 수 없습니다. 그래서 테이블을 깔끔하게 표현할 수있는 파서 중 하나를 이미 사용했는지 물어보기로했습니다. API는 XML 덤프와 아무런 관련이 없으므로 도움말을 불러 오지 않습니다. – Vilmar

답변

0

XML 덤프에서 위키피디아 테이블을 구문 분석하는 좋은 방법을 찾지 못했습니다. 그러나 HTML 파서를 사용하는 몇 가지 방법이 있습니다. wikitables 파서. 특정 페이지의 테이블 만 분석해야하는 경우가 아니라면 많은 수의 스크래핑이 필요합니다. 그러나 HTML 위키 덤프 다시 시작하려고 보인다 오프라인을 할 수 것 (dumps, phabricator task)

관련 문제