2015-02-04 2 views
1

DBpedia 추출 프레임 워크에서 작업하는 동안 코어 데이터 세트의 csv 파일에 문제가 있습니다. dbpedia 덤프 (RDF 형식)에서 데이터 추출 (제 경우에는 모든 회사의 위키 백과 페이지 요약)에 관심이 있습니다. 내가 사용 DBpedia Abstract Extractioin Step-by-step GuideDBPedia 덤프 추출 중 DBPedia 추출 프레임 워크 오류

명령의 지시 사항을 해요 : 마지막 명령을 "./run 추출 extraction.properties.file"를 실행할 때

$ git clone git://github.com/dbpedia/extraction-framework.git 
$ cd extraction-framework 
$ mvn clean install 
$ cd dump 
$ ../run download config=download.minimal.properties 
$ ../run extraction extraction.default.properties 

내가 아래에 오류가 발생합니다. 실수로 내가 누구인지 지적 할 수 있을까요? 처리해야 할 특정 CSV 파일이나 일부 구성 문제가 있습니까? 나는 완전한 "mediawiki-1.24.1"을 가지고있다.

pages-articles.xml.bz2에서주의하십시오. 나는 부분적으로 256MB까지만 다운로드합니다. 도와주세요

parsing /opt/extraction-framework-master/DumpsD ata/wikid atawiki/20150113/wikipedias.csv 
java.lang.reflect.Invoc ationTargetException 
    at sun.reflect.N ativeMethodAccessorImpl.invoke0(N ative Method) 
    at sun.reflect.N ativeMethodAccessorImpl.invoke(N ativeMethodAccessorImpl.java:62) 
    at sun.reflect.Deleg atingMethodAccessorImpl.invoke(Deleg atingMethodAccessorImpl.java:43) 
    at java.lang.reflect.Method.invoke(Method.java:483) 
    at scala_maven_executions.MainHelper.runMain(MainHelper.java:164) 
    at scala_maven_executions.MainWithArgsInFile.main(MainWithArgsInFile.java:26) 
Caused by: java.lang.Exception: expected [15] fields, found [1] in line [%21%21%21 http://www.w3.org/2000/01/rdf-schema#label !!! l] 
    at org.dbpedia.extraction.util.WikiInfo$.fromLine(WikiInfo.scala:60) 
    at org.dbpedia.extraction.util.WikiInfo$$anonfun$fromLines$1.apply(WikiInfo.scala:49) 
    at org.dbpedia.extraction.util.WikiInfo$$anonfun$fromLines$1.apply(WikiInfo.scala:49) 
    at scala.collection.Iter ator$class.foreach(Iter ator.scala:743) 
    at scala.collection.AbstractIter ator.foreach(Iter ator.scala:1195) 
    at org.dbpedia.extraction.util.WikiInfo$.fromLines(WikiInfo.scala:49) 
    at org.dbpedia.extraction.util.WikiInfo$.fromSource(WikiInfo.scala:36) 
    at org.dbpedia.extraction.util.WikiInfo$.fromFile(WikiInfo.scala:27) 
    at org.dbpedia.extraction.util.ConfigUtils$.parseLanguages(ConfigUtils.scala:83) 
    at org.dbpedia.extraction.dump.sql.Import$.main(Import.scala:29) 
    at org.dbpedia.extraction.dump.sql.Import.main(Import.scala) 
+0

넣어 지시를 따라 DBpedia 추출을위한 wikipedias.csv? –

답변

0
내가

$ ../run download config=download.minimal.properties 

를 사용하기 때문에 enwiki-20150205-페이지-articles.xml.bz2 파일의 불완전한 다운로드의 문제 위에 직면하고 있지만, 아직 내가 같이 추상적 추출 문제를 해결하기 위해 실패했다

bdpedia 덤프에서 긴 추상을 예상합니다.

$ ../run extraction extraction extraction.abstracts.properties 

완전히 구축하고 long_abstracts_en.nt 1 CR + 페이지 그러나 반영하지 통해 데이터를 추출 수행은

내가 올바른 다운로드 할 수있는 곳에서 위키 PHP와 MySQL 등