2

Wikipedia 카테고리/페이지 사이에 거리의 [방향성?] 개념/구현이 있습니까?위키 거리 : 위키 주제와 카테고리 사이의 거리?

예를 들어 고려 : A) "세인트 루이스 대학"B) "대학"

은 분명히 "A"는 "B"의 일종입니다. Wiki에서 이것을 어떻게 추출 할 수 있습니까? 모든 범주가 ​​연결 추출 할 경우 , 당신은

Category:1818 establishments in Missouri Territory 
Category:Articles containing Latin-language text 
Category:Association of Catholic Colleges and Universities 
Category:Commons category with local link same as on Wikidata 
Category:Coordinates on Wikidata 
Category:Educational institutions established in 1818 
Category:Instances of Infobox university using image size 
Category:Jesuit universities and colleges in the United States 
Category:Roman Catholic Archdiocese of St. Louis 
Category:Roman Catholic universities and colleges in Missouri 

을주는 것을 볼 수있을 그것은 바로 B (https://en.wikipedia.org/wiki/University)에 연결 할 수있는 모든 작업이 포함되어 있지 않습니다. 그러나 본질적으로 더 자세히 살펴보면 A와 B 사이의 다중 홉 경로, 가능한 여러 홉을 찾을 수 있어야합니다. 이것을 달성하는 대중적인 방법은 무엇입니까?

+0

-은 https ://github.com/wasiahmad/Mining-Wikipedia/tree/master/WikiNomy –

+0

@WasiAhmad 프로젝트가 MediaWiki API를 통해 Wiki 정보에 액세스하는 것과 어떻게 다릅니 까? – Daniel

+0

내 프로젝트는 API를 사용하지 않고 Wiki 덤프에서 직접 카테고리 계층 구조를 추출합니다. 내 연구 활동 중 하나에 대해 전체 위키 카테고리 계층 구조가 필요했기 때문에 해당 프로젝트를 개발했습니다. –

답변

1

전체 위키피디아 카테고리 택 소노 미가있는 경우 두 카테고리 간의 거리 (최단 경로 길이)를 계산할 수 있습니다. 한 범주가 다른 범주의 조상이라면 그것은 곧장 앞으로 나옵니다.

그렇지 않으면 최소 일반 서브 서버은 다음과 같이 정의됩니다. 두 개념 A와 B의

최소 공통 subsumer는

그럼 LCS 통해 그들 사이의 거리를 계산 A와 B 모두

의 조상 가장 구체적인 개념이다.

similarity measures을 통해 단어 간의 의미 론적 유사성을 계산하는 최첨단 기법을 찾아 보시기 바랍니다.

리소스 : 위키 피 디아 카테고리/개념 추출에서 내 project가 도움이 될 수 있습니다.

한 아주 좋은 관련 예를

계산 WordNet를 사용하여 단어 사이의 의미 적 유사성. WordNet은 영어 단어를 계층 적으로 구성합니다. 이 부분은 wordnet similarity for java demo입니다. 단어 사이의 의미 론적 유사성을 계산하기 위해 8 개의 다른 기술 상태 기술을 사용합니다.

1

내가 수집 한 아이디어 나 자원. 더 많은 것을 발견하면 이것을 업데이트 할 것입니다.

- DBPedia을 사용하는 경우 : 위키를 기반으로하는 지식 기반. 그들은이 KB를 쿼리하기 위해 SparQL end-point을 제공합니다. 그러나 SparQL 인터페이스를 통해 원하는 유사성/거리 동작을 시뮬레이트해야합니다. 어떤 아이디어는 herehere이지만 구식 인 것 같습니다.

- 개념의 지식 그래프 인 UMBEL : http://umbel.org/을 사용합니다. 이 지식 그래프의 크기는 비교적 작다고 생각합니다. 그러나 나는 그 정밀도가 아마도 높다고 생각한다. 그것이 말하자면, 나는 이것이 Wikipedia와 어떻게 관련되어 있는지 전혀 모르겠습니다. 그들은 해당 개념 쌍 사이의 거리 측정 값을 계산하기 위해 this api을 가지고 있습니다 (이 글을 쓰는 순간 유사 API가 다운되었으므로 가능한 해결책은 아닙니다).

- http://degreesofwikipedia.com/을 사용하면 알고리즘의 세부 사항과 방법은 없지만 Wiki 개념 간의 거리는 제공합니다. 또한 이것은 방향성을 지니고 있습니다. 예 : thisthis.

1

"is a"관계를 찾고있을 수도 있습니다. Q734774 (세인트 루이스 대학의 위키 타타 항목)은 대학, 건물 및 비영리 비영리 교육 기관입니다. 당신은 그것을 쿼리 SPARQL을 사용할 수 있습니다

  • is Saint Louis University a university?
  • how far is Saint Louis University removed from the concept of "university"?

      (I이 의미 아무것도 생산할 것이라고 의심하지만)
    당신이 추출 위키 백과 카테고리 계층 구조 내 프로젝트에보고 고려할 수
  • +0

    이것은 아주 좋은 @Tgr입니다! 또한 DBPedia를 사용하여 첫 번째 쿼리와 동일한 형식을 작성할 수 있습니까? – Daniel

    +0

    저는 DBPedia에 익숙하지 않습니다. 내 일반적인 인상은 그들이 더 많은 데이터를 가지고 있지만 평평한 (대부분 infobox 매개 변수 - 값 쌍) 그래서 이것은 이와 같은 쿼리에 적합하지 않다는 것입니다. – Tgr

    +0

    나는 감사 @ Tgr을 참조하십시오. 다른 것. 첫 번째 링크에 대한 'ASK'쿼리의 결과를 출력하는 방법은 무엇입니까? 마치 두 사람을 연결하는 길을보고 싶습니다. – Daniel