2017-11-10 1 views
0

위키피디아 (enwiki)의 영어 버전을 위해 특별히 말하고 있습니다. 나는 SQL 덤프 (categorylinks, page, page_prop)를 다운로드하여 위키피디아의 다른 가벼운 버전을 시도했지만 영어 버전을 사용하면이 작업이 쉽지 않습니다. 나는 데이터베이스에 순간에 SQL 파일에서 데이터를 쓰고 있지만, 시간이 많이 걸릴 것이므로 다른 일을 쉽게하고 싶습니다. 실제로 데이터 작성에 성공하면 쿼리에 영원히 걸릴 수 있습니다. 그렇다면 영어 Wikipedia에서 기사 목록과 카테고리를 어떻게 컴파일 할 수 있습니까?위키 피 디아에서 기사 - 카테고리 관계 목록을 얻는 가장 쉬운 방법은 무엇입니까

+1

예를 들어 위키 백과에서 페이지를 검색하고 싶습니다. '앨버트 아인슈타인 ', 그리고 페이지 카테고리 등을 얻으시겠습니까? Wikipedia API를 사용하고 싶을 수도 있습니다 : https://en.wikipedia.org/wiki/Special:ApiSandbox#action=query&prop=categories&titles=Albert%20Einstein – neoDev

+0

ApiSandBox를 사용해 보았습니다.하지만 Api가 수집 한 것에서는 한계가 있습니다. 500 레코드 중, 맞죠? 기사의 수는 4 - 5.000.000입니다. – dmarkos

답변

0

음, 쉬운 대답은 없습니다. 다운로드 및 덤프를 사용하여 기존의 컴퓨터와 매우 친숙하지 않습니다. 고맙게도 제가 사용했던 Quarry이라는 서비스가 있습니다. 위키 백과 데이터베이스를 쿼리 해 봅시다. 그러나 제한이 있으므로 위의 목록을 얻으려면 내 검색어를 limit clause을 사용하여 작은 조각으로 잘라야하고 같은 쿼리에 +50 번 부여해야했습니다. 이 데이터를 원하는 모든 사람에게 내 quarry profile을 방문하여 Article - Categories 개의 쿼리에서 데이터를 가져올 수 있습니다.

관련 문제