2011-07-06 3 views
1

파이썬과 MySQL을 사용하여 mediawiki 데이터베이스를 쿼리하여 기사의 현재 상태 (즉, 기사가 FA, GA, GAN 등)를 가져올 수 있지만 그렇게 할 수 없었습니다.위키피디아 기사의 현재 상태를 얻으시겠습니까?

현재 상태가 텍스트 테이블의 old_text 필드에 저장되어 있다는 것을 알고 있습니다. 내가 좋아하는 뭔가를 시도했다 :

loc = select (locate('currentstatus', old_text)) 
query = ('select substring(old_text, '%s', 20) from wikidb where page_id = 1234' % (loc)) 

하지만 불행히도 LOC는 currentstatus의 첫 번째 항목 및 최신/최신 상태가 바닥에 있기 때문에 매우 '현재'하지 않은 마지막하지를 제공합니다.

해결 방법이나 올바른 접근 방법을 사용하고 있는지 확실하지 않습니다.

+0

어떤 SQL API를 사용하고 있습니까? 데이터의 출처는 어디입니까? 'currentstatus' 필드의 형식 만 지정해도 누군가가 여러분을 도울 수 있다고 확신합니다. –

+0

데이터베이스 필드'old_text'의 형식은 무엇입니까? –

+0

필자는 기사를 다운로드하기 위해 특별한 내보내기를 사용했다. 그런 다음 나는 mediawiki 데이터베이스로 가져왔다. 나는 mysqldb (mysql 용 파이썬 모듈)를 사용하여 mediawiki를 쿼리한다. old_text는 blob이며 currentstatus 형식은 http://en.wikipedia.org/wiki/Template:ArticleHistory에서 볼 수 있습니다. – hopeful

답변

0

은 위키 백과를 들어,이 문서에있는 범주를 검토하는 시점에 더 될 것 원시 wikitext를 처리하는 경우 또는 해당 템플릿을 찾습니다. [[에

  • 기사 (FA)입니다 카테고리 : 추천 기사]] 및 [{추천 기사}}을 (를) 참조하십시오.
  • 좋은 기사 (GA)는 [[category : Good articles]]에 있으며 {{good article} }, [[템플릿 : 좋은 기사]]

두 고양이 egories는 숨겨져 있기 때문에 숨겨진 카테고리를 표시하기 위해 환경 설정을 활성화하거나 기사가 있는지 카테고리 내용을 트래버스해야합니다.

다른 기사 클래스 (A, B, C, FL, 시작, 스텁, 목록, 정의되지 않음)는 하나 이상의 WikiProject 템플릿을 사용하여 해당 토크 페이지에서 평가됩니다. 표준이 없습니다.

관련 문제