0
위키 덤프의 테이블에서 데이터를 추출하는 것이 편리합니다. 리스트의리스트. 그러나 덤프의 형식으로 인해 일종의 까다로운 것으로 보입니다. 나는 WikiExtractor을 알고 있는데, 이것은 덤프에서 깨끗한 텍스트를 얻는데 유용하지만, 테이블을 모두 삭제합니다. 같은 방식으로 테이블을 편리하게 읽을 수있는 파서가 있습니까?덤프에서 Wikpedia 테이블을 구문 분석 할 수있는 기존 라이브러리가 있습니까?
여기에서 확인 유무 : https://www.mediawiki.org/wiki/API:Main_page –
@joelgoldstick , 나는 [파서리스트 페이지] (https://www.mediawiki.org/wiki/Alternative_parsers)를 보았고, 나는 그것들 중 몇 가지를 들여다 보았다. 나는 아직 나의 요구에 맞는 것을 찾는다. (XML 덤프, 파이썬 또는 독립 실행 형). 그 중 일부 (예 : DizzyLogic, 심지어 액세스 할 수 없습니다. 그래서 테이블을 깔끔하게 표현할 수있는 파서 중 하나를 이미 사용했는지 물어보기로했습니다. API는 XML 덤프와 아무런 관련이 없으므로 도움말을 불러 오지 않습니다. – Vilmar