2013-07-04 2 views
-2

Google 프리베이스를 가져 오려고했지만 오류가 발생했습니다.하지만 이제는 18GB의 rdf에서 csv 등의 유명한 유형으로 주제 이름을 추출하는 방법 ... 모든 GUI 도구 ?rdf를 가져 오는 중 오류가 발생했습니다

+0

어떤 오류가 발생합니까? GUI 도구가 필요한 이유는 무엇입니까? 주목할만한 유형과 이름을 원한다면 grep 명령을 사용하면 간단한 한 줄짜리 줄 알았을 것입니다. –

+0

Google 정제 (* .gz 크기 : 18GB 및 압축되지 않은 크기 : 146GB)에서 가져 오지 않습니다 ....하지만 무엇을 & 어디서 명령을 입력 할 수 있습니까? 리눅스 사용자가 아닙니다 ... – user2216267

+0

한 줄의 grep 명령? – user2216267

답변

2

146GB는 OpenRefine (예 : Google 상세 검색)에서 처리하기에는 너무 큽니다. 이 도구를 사용하는 GUI 도구가 있다면 익숙하지는 않지만 프로그래밍 Q & 사이트이므로 쉘 프로그래밍 솔루션을 제공 할 것입니다. 리눅스에 대해 알 필요는 없지만 유닉스 셸 명령 (Windows에서 Cygwin을 사용할 수 있음)을 사용하는 방법을 알아야합니다.

curl -L http://download.freebaseapps.com | gunzip | egrep 'notable_for|notable_type|rdfs:label' 

은 솔루션을 어셈블 링하는 데 필요한 모든 원시 데이터를 제공합니다. 핵심 정보가있는 행은 다음과 같습니다. 그러나 레이블/이름 만 원하면 첫 번째 및 마지막 열의 제목/객체 ID로 대체해야합니다.

ns:m.01nsxs2 ns:common.topic.notable_types ns:m.0kpv17. 
+0

나는 당신이 제공 한 명령을 실행했다. 그러나 항목 이름과 주목할만한 유형 (예 : csv의 예 : (Gmail : 소프트웨어))으로 일반 텍스트를 얻는 방법. 현재 : 'ns : g.1254yxnny ns : common. notable_for.display_name "Zeneszám"@hu. ns : g.1254yxnny ns : common.notable_for.display_name "Utwór muzyczny"@pl. ns : g.1254yxnny ns : common.notable_for.display_name "Nummer (muziek)"@ nl. ns : g.1254yxnny ns : common.notable_for.display_name "@ hi.' – user2216267

+0

도움이 필요하십니까? – user2216267

관련 문제