2012-04-03 2 views
0

Wikipedia 최신 덤프를 다운로드하고 MySQL 데이터베이스를 구문 분석했습니다. 이제는 제목과 내용 만 포함 된 데이터베이스 테이블이 있습니다. 내 요구 사항은 모든 전기 제목을 가진 덤프 파일을 원한다면이 표에서 모든 전기 내용을 추출하는 것입니다. 미리 감사드립니다.Wikipedia에서 약력 제목에 액세스

+0

데이터베이스 테이블에는 해당 제목과 관련된 제목 및 내용 만 들어 있습니다. 이것은 enwiki-articles-latest.xml을 파싱하여 얻은 것입니다. 그러나 나의 요구 사항은 카테고리 전기의 제목과 관련된 내용 만 얻는 것입니다. 위키 피 디아에서 모든 전기 목록을 얻은 경우 데이터베이스 테이블에서 내용을 가져올 수 있습니다. –

답변

0

일부 카테고리와 모든 하위 카테고리의 기사를 모두 가져 오려면 the categorylinks table을 사용하고 하위 카테고리의 기사를 보려면 재귀 적으로 걸어 가야합니다.

귀하의 질문에 정확히 무엇이 필요한지 확실하지 않습니다. 기사가 Category:Biography를 보길 원한다면. 인 기사가 인 자라면 하위 범주 Category:People을보십시오.

+0

나는 사람들에 관한 기사가 필요하다. 사람들과 관련된 위키피디아의 모든 기사 주제를 얻을 수 있을까? mysql 덤프와 마찬가지로 –

+0

아니요, 카테고리 트리를 직접 살펴 봐야합니다. – svick

관련 문제