2013-03-20 3 views
2

각 기사에 레이블, 초록, 카테고리 및 관련 날짜를 DBPedia dump file에서 추출하고 싶습니다..NET에서 DBPedia의 큰 덤프 파일에서 내용 추출

나는 dotnetrdf을 사용하고 있으며 추출한 데이터를 MS SQL 데이터베이스에 저장하려고합니다 (Virtuoso와 같은 트리플 스토어를 사용하고 싶지 않습니다).

덤프 파일의 크기 때문에 덤프 파일을 메모리로로드 할 수 없습니다.

문장을 추출하는 솔루션이 있습니까? 내가 상상할 수있는 유일한 방법은 덤프 파일을 작은 덩어리 파일로 분할하는 것입니다. 유일한 해결책입니까?

답변

3

실제로 dotNetRDF의 모든 내용은 스트리밍 구문 분석을 지원하도록 설계되었지만 가장 일반적인 사용 사례는 우리의 메모리 내장 구조에 물건을로드하는 것입니다.하지만 심지어 스트리밍 파서 하위 시스템을 사용합니다.

Handlers API을 소개하는 읽기 RDF 문서의 Advanced Parsing 섹션을 참조하십시오.이 API는 사용자가 파서가 생성 한 데이터에 어떤 일이 일어나는지 완벽하게 제어 할 수 있도록합니다. 따라서 스트림에서 생성 된 데이터를 받아서 데이터베이스에 저장하는 사용자 지정 처리기를 작성할 수 있습니다.

+0

Handlers API 링크를 자세히 살펴 보았습니다. 여기서는 실제로 필요한 부분 인 것처럼 보입니다. –