2017-02-16 1 views
0

위키피디아 pagelinks SQL 덤프를 사용하여 특정 수정 시간 동안 위키 백과 페이지 간의 하이퍼 링크를 성공적으로 얻을 수있었습니다. 그러나, 그러한 링크의 다수의 인스턴스가 존재하는 경우가있다. 매우 동일한 https://en.wikipedia.org/wiki/Wikipedia 페이지와 https://en.wikipedia.org/wiki/Wikimedia_Foundation입니다. 특정 개정판에 대한 페이지 쌍 사이의 링크 수를 찾는 데 관심이 있습니다.두 개의 위키 피 디아 페이지 간 링크 수

이상적인 솔루션은 페이징 링크 (MediaWiki API)를 사용하는 pagelinks가 아닌 덤프 파일을 사용하거나 MediaWiki API를 사용하는 것입니다.

답변

1

적어도 나쁜 옵션은 Parsoid 출력을 구문 분석하는 것이라고 생각합니다. 예 : https://en.wikipedia.org/api/rest_v1/page/html/Wikipedia으로 이동하여 선택자 a[rel="mw:WikiLink"][href="./Wikimedia_Foundation"]과 일치하는 링크를 계산하십시오.

+0

나는 API 호출을하고 두 개의 위키 피 디아 기사 사이의 모든 하이퍼 링크를 구문 분석해야 할 것입니다 ... – maruscia

+1

예, 그렇습니다. [연구 목록] (https://lists.wikimedia.org/pipermail/wiki-research-l/)에 대한 질문을 시도해 볼 수 있습니다. 어쩌면 누군가가 이미 데이터를 공유하고 데이터를 공유 할 수 있습니다. – Tgr

+0

감사합니다, 나는 당신의 제안을 따랐습니다 :) – maruscia

관련 문제