2012-02-16 6 views
2

임의의 웹 페이지 주제 또는 주제를 찾고이를 dbpedia와 같은 RDF 데이터베이스의 엔티티에 연결하는 데 관심이 있습니다. 나는 이것을하기위한 도구 나 라이브러리가 있는지 궁금하거나 누군가 이전에 이런 일을하려고 시도했다면 궁금한가요?웹 페이지의 주제 찾기

+0

귀하의 질문은 "건설적이지 않은"것으로 간주 될 수 있지만 어쨌든 : 귀하에게 유용한 대답이 있습니까? 답으로 선택해 주시겠습니까? –

답변

1

웹 페이지의 제목을 찾기합니다 (동측 위키 백과 페이지 참조) Automatic Summarization 아마 가장 가까운 것입니다. 그 하위 작업 중 하나는 Keyphrase Extraction (KE)입니다. KE는 입력 텍스트에서 해당 텍스트 항목에 중요하거나 중요하거나 관련이있는 하위 문자열 (구)을 반환합니다. 명명 된 엔티티가 대개 입력 텍스트의 주제에 대한 핵심이라고 가정하면 Named Entity Recognition (NER)이 원하는 것의 또 다른 하위 타스크가됩니다. NER은 엔티티의 유형과 함께 엔티티 이름 인 하위 문자열을 반환합니다.

DBpedia와 같은 지식 기반 (KB)에 대한 링크를 언급 할 때 설명대로 KE 또는 NER 이상을 찾고있는 것으로 보입니다. DBpedia Spotlight라는 도구가 바로 그 기능을합니다. 입력 텍스트에서 모든 DBpedia 리소스를 찾을 수 있도록 구성하거나, 키 프레이즈, 명명 된 엔티티 만 찾을 수 있습니다. 결국 DBpedia에 연결되는 동안 모든 것이 끝납니다. 그것을 확인하십시오 : http://spotlight.dbpedia.org

AlchemiAPI, Zemanta, WikiMachine, Evri, HeadUp, Enrycher 등과 같은 다른 도구가 있습니다. 그러나 제가 아는 한 DBpedia Spotlight는 무료 오픈 소스입니다 (Apache V2)를 사용하여 구문 인식 및 모호성 제거의 동작을 구성 할 수 있습니다. (면책 조항 : DBpedia 스포트라이트 공동 작성자)

1

당신이 본질적으로 맺은 것은 명명 된 엔티티 인식 도구입니다. Alchemy API, OpenCalais, Lupedia 또는 Zemanta과 같이 다양한 무료 및 상용 서비스를 이용할 수 있습니다. 제 동료 중 일부는 bloggedabout이 서비스에 대한 경험이 있습니다.

interlinking 부분의 경우 일반적으로 Silk 또는 LIMES과 같은 프레임 워크를 사용합니다. 곧 EC FP7 프로젝트 LATC를 통해 interlinking service in the cloud을 사용할 수 있습니다. 면책 조항 : 저는 LATC 프로젝트 조정자이고 Silk/LIMES는 LATC 컨소시엄 멤버의 제품입니다.

1

OpenLink Virtuoso는 이미 OpenCalais, Alchemy, Pingar 및 DBPedia Spotlight 용 Sponger (RDFizer) 메타 카트리지로이 작업을 수행합니다. 즉, 페이지에 피드를 넣고 위의 사이트에 엔티티를 요청하면 식별 된 엔티티를 기반으로 트리플을 제공합니다.

(면책 조항 :. 내가 알아야 할)