Jena를 사용하여 freebase 덤프 파일 freebase-rdf-2014-01-12-00-00.gz (25GB)를 구문 분석하려고합니다. Jena에서 불량 데이터와 관련하여 많은 문제가보고되었습니다. 예 - 150.0이 유효하지 않음, true 및 false 값이 올바르지 않음 이러한 문제는 괄호 파일의 10 진수 및 true/false 주위에 큰 따옴표를 추가하여 해결했습니다. 그러나 문제는 여전히 존재합니다. reported by Jena.(current - org.apache.jena.riot.RiotException: [line: 161083, col: 110] Illegal object: [MINUS])
freebase RDF 덤프에 대한 Jena 구문 분석 문제 (1214 년 1 월)
이 데이터를 사전 처리하여 각 문제를 하나씩 수정하지 않아도됩니다. 내 Java 코드 :
// Open TDB dataset
String directory = "D:/test_dump";
Dataset dataset = TDBFactory.createDataset(directory);
// Assume we want the default model, or we could get a named model here
Model tdb = dataset.getDefaultModel();
// Read the input file - only needs to be done once
String source = "D:/test_dump/fixed-freebase-second-rdf.gz";
FileManager.get().readModel(tdb, source, "N-TRIPLES");
answers.semanticweb.com에 대한 최근 질문 [Freebase RDF 덤프가 w3 n-triples 사양을 준수합니까?] (http://answers.semanticweb.com/questions/26084/does- the-free-base-rdf-dump-conform-to-the-w3-n-triples-spec)을 사용합니다. 데이터는 N-Triples이 아닌 거북이에 있습니다. –