2011-01-20 3 views
19

위키 피 디아의 분류 정보를 사용하여 내 콘텐츠에서 태그/키워드를 추출하는 방법을 모색 중입니다.DBPedia를 사용하여 콘텐츠에서 태그/키워드를 추출하는 방법은 무엇입니까?

DBPedia에 대한 기사를 찾았습니다. DBpedia는 Wikipedia에서 구조화 된 정보를 추출하고 웹에서이 정보를 사용할 수 있도록하기위한 커뮤니티 노력입니다.

누구나 웹 서비스를 사용 했습니까? 그들이 어떻게 작동하고 얼마나 신뢰할 수 있는지 알고 있습니까?

답변

20

DBpedia은 환상적이고 고품질의 리소스입니다.

  1. 콘텐츠에 DBpedia 개념을 확인 : 그러나, 관련 DBpedia 개념의 집합으로 콘텐츠를 설정하기 위해, 당신은 정확하게 두 개 이상의 단계를 포함 텍스트, 그들을 식별해야합니다 여기에는 텍스트에서 개념 이름 (및 대체 이름)을 인식하고 각 문구의 가능한 모든 의미를 명확히합니다. "Sun"이라는 용어는 스타, 신문, 사람 이름 등을 포함하여 disambiguation page에 따라 수십 가지 가능한 개념을 나타낼 수 있습니다. 여기에는 엔티티 식별, 분류 및 연결이 포함됩니다.

  2. 이러한 개념 중 흥미로운 것을 식별하십시오. 예를 들어 텍스트에 "the"(로 리디렉션되는)라는 단어가 포함되어있을 때 "한정적 기사"라는 개념을 표시 하시겠습니까?

DBpedia에 대한 엔티티 링크를 지원하는 기존 텍스트 분석 라이브러리 또는 서비스를 고려해 볼 수 있습니다. 주제 색인 생성을위한 훌륭한 도구는 Maui이며 박사 학위 과정에서 Alyona Medelyan에 의해 개발되었습니다. 또 다른 위대한 오픈 소스 솔루션은 동일한 대학 David Milne의 Wikipedia Miner입니다.

DBpedia 개념에 연결하는 두 가지 상용 서비스는 어느 정도 자유 사용을 허용하는 ZemantaExtractiv입니다. DBpedia spotlight 옵션. 이러한 기능을 제공 할 수있는 다른 제품은 다음 목록에 나열되어 있습니다. https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

공개 : Language Computer Corporation의 NLP를 사용하는 Extractiv (근무하지 않음)에서 일 했었습니다.

4

이 과정에서는 Apache Stanbol을 사용할 수 있습니다. Entityhub Apache Stanbol의 구성 요소는 필요에 따라 사용자 정의 DBPedia 색인을 생성합니다. 그런 다음 Enhancer 구성 요소를 사용하여 텍스트에서 장소, 사람, 위치 엔티티를 추출 할 수 있습니다.

다음 메일 스레드가 도움이 될 수 있습니다.
http://markmail.org/message/52266yl5ohijxiof

다음 링크에서 아파치 Stanbol의 데모를 실행에 액세스 할 수 있습니다 또한 stanbol-dev AT incubator.apache.org에 추가 질문을 할 수
http://dev.iks-project.eu/

.

관련 문제