2011-09-02 2 views
1

mediawiki xml 덤프를 가져 오기 위해 mwdumper를 사용하는보다 빠른 대안을 찾고 있습니다. 커다란 기사에 대해 xml을 하나씩 다운로드하기 위해 wget을 사용했고 가져올 필요가있는 몇백 가지가 있습니다. 한 번에 하나씩 가져 오는 작업이 너무 오래 걸림xml을 가져 오기 위해 mwdumper보다 빠른 대안이 있습니까?

명령 java -jar mwdumper.jar --format = sql : 1.5 page1.xml | mysql -u username -d databasename 가 Windows 명령 행에서 작동하지 않는 것 같습니다.

+0

의 형태로

  • 니스 의견을 더 없다 (파이프). 'mwdumper'는 데이터베이스에 결과를 직접 쓰는 옵션을 가지고 있습니다. – Tgr

  • +0

    thx @Tgr 그 옵션이 무엇인지 알고 계십니까? 내가 해왔 던 방식은 mwdumper.jar을 열고, 파일을 검색하고, 데이터베이스에 연결하고 가져 오기 한 다음, 각 파일에 대해 반복합니다. – hopeful

    +0

    '--output = mysql : '여기서 [JDBC url] (http://dev.mysql.com/doc/refman/5.0/en/connector-j-reference-configuration-properties.html)은' mysql : // /? user = & password = '. [documentation] (http://www.mediawiki.org/wiki/Manual:MWDumper)의 다른 모든 옵션과 함께 찾을 수 있습니다. (그래도 작동한다는 보장은 없지만 문제가 있다는 것을 상기 한 것 같지만 오래 전이었습니다.) – Tgr

    답변

    0

    몇 가지 옵션을 비교했습니다. maintenance/importDump.php 나를 위해 승자가되었습니다

    • 그것은 남아 너무 가능성이 미디어 위키 자체의 일부 지원 (당신은 SQL을 직접 쿼리 덤비는 시작하면 당신은 확실히 얻을 것이다) 이상의 적은 기회.
    • maintenance/edit.php 코드를 기반으로 한 코드의 두 배 이상 빠릅니다.
    • 기존 MediaWiki 설정에서 실행할 수 있습니다.
    • GNU Parallel과 잘 작동합니다. | 20.23 revs/sec
    관련 문제