위키피디아 페이지를 파이썬 라이브러리 또는 라이브러리와 함께 토큰 화하고 싶습니다. 나는 테이블과 목록에 가장 관심이 많다. 이 데이터를 Postgres 또는 Neo4j로 가져올 수 있기를 원합니다. 통화 이 http://en.wikipedia.org/wiki/Eurovision_Song_Contest_2008#Final 위키 피 디아 페이지를 토큰화할 수있는 파이썬 라이브러리
- 얼마나 많은 포인트 :
예를 들어, 나는 여기에 관심이있을 것 세 가지 데이터 세트는 http://en.wikipedia.org/wiki/List_of_solar_thermal_power_stations
이들 각각의 출처는 위키 피 디아의 마크 업 브랜드로 작성되어 있습니다. 마크 업 브랜드는이를 렌더링하는 데 사용됩니다. 원시 데이터 형식에 사용되는 많은 위키 백과 관련 태그와 구문이 있습니다. BeautifulSoup 만 사용하면 HTML이 거의 더 쉬운 솔루션이 될 수 있습니다.
더 나은 토큰 화 방법은 누구나 알고 계십니까? 내가 최종 HTML을 가져 와서 BeautifulSoup로 구문 분석하면 바퀴를 다시 만들 것이라고 생각합니다. 또한 이러한 페이지를 XML로 출력 할 수있는 방법을 찾으면 테이블 데이터가 충분히 토큰 화되지 않아 추가 처리가 필요합니다.
[여기] (http://www.mediawiki.org/wiki/Alternative_parsers)는 위키 구문에 대한 일부 구문 분석기입니다. 일부 Python 솔루션이 있지만 더 처리 할 수있는 중간 표현을 생성하는 솔루션을 선택해야합니다. [mediawiki-parser] (https://github.com/peter17/mediawiki-parser)는 예를 들어 유망 해 보인다. – schlamar
[다음은 XML로 데이터를 가져 오기 위해 mediawiki API를 사용하는 예제입니다.] (http://stackoverflow.com/a/8045486/4279) 참고 : 마크 업을 토큰 화하지 않습니다 (몇 가지 특정 사례의 경우 더 간단 할 수도 있음). 일부 미디어 위키 마크 업 구문 분석기의 토큰 화 된 출력이 아닌 원시 텍스트를 처리합니다. – jfs