2012-05-27 2 views
0

bzip 된 wiki XML 덤프를 로컬 wiki 데이터베이스로 가져 오려고합니다. 나는 위키 백과 XML 덤프를 가져 오기 위해 MWDumper이라는 도구를 사용하고 있습니다. 내가 실제로 가져 오기를 시도 할 때까지 모든 것이 부드럽게 실행되고있는 것 같았습니다 (MWdumper가 성공적으로 빌드 된 것처럼 보였습니다). 내 서버가 다음 실행 시작 (접근 방법은 위의 링크에서 MWDumper 페이지에 제안 된 것으로 보인다) 다음압축 된 XML 덤프에서 가져 오기를 시도하는 동안 java.io.IOException이 발생했습니다.

나는 그런 다음 다음과 같은 오류 메시지가 도착
java -jar mwdumper-1.16.jar --format=sql:1.5 enwiki-latest-pages-articles.xml.bz2 | 
    mysql -u root -p my_wiki 

:

Exception in thread "main" java.io.IOException: Stream is not in the BZip2 format 
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.init(BZip2CompressorInputStream.java:255) 
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.<init>(BZip2CompressorInputStream.java:138) 
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.<init>(BZip2CompressorInputStream.java:111) 
at org.mediawiki.dumper.Tools.openBZip2Stream(Tools.java:42) 
at org.mediawiki.dumper.Tools.openInputFile(Tools.java:28) 
at org.mediawiki.dumper.Dumper.main(Dumper.java:124) 

아무튼 내 파일 enwiki-latest-pages-articles.xml.bz2가 올바른 bzip2 형식으로 나타나기 때문에 이해가되지 않는 것 같습니다. (비록 내가이 에러 메시지를 가지고 있지 않다고 생각하기 때문에 Apache Commons 압축 패키지를 제대로 가져 왔는지 확신 할 수 없습니다.)

편집 :이 문제는 계속 발생했습니다. 해결됨. MWDumper 위키 페이지에 제 3 자 MWDumper 빌드를 다운로드했습니다. 조언 : 소스에서 MWDumper를 빌드하지 마십시오. 2005 년부터 흩어져있는 소스 파일이 누락되었습니다. 제 3자인 mwdumper.jar를 사용하십시오.

+1

올바른 bzip2 형식으로 나타나면 "bunzip2"로 압축을 풀 수 있습니까? –

+0

글쎄, 우리는 25GB 이상을 비 압축으로 말하지만 시도해 볼 수는있다 ... 나는 그 경로를 취하기 전에 몇 가지 대안을 시도 할 것이다. –

+1

오류가 특별히 bzip2가 유효하지 않다고 말하면서 먼저해야 할 일처럼 보입니다. 물론, 그것은 클 수 있습니다 -하지만 * 많은 디스크 공간을 가지고 있지 않습니까? 또는 bunzip2에 "verify"모드가 있습니까? –

답변

0

OP 솔루션 :이 문제가 해결되었습니다. MWDumper 위키 페이지에 제 3 자 MWDumper 빌드를 다운로드했습니다. 조언 : 소스에서 MWDumper를 빌드하지 마십시오. 2005 년부터 흩어져있는 소스 파일이 누락되었습니다. 제 3자인 mwdumper.jar를 사용하십시오.

관련 문제