2014-01-24 6 views
2

Wikipedia Pagelinks 데이터 세트를 다운로드했습니다 (Wiki 덤프 - http://dumps.wikimedia.org/enwiki/20140102/에서 사용 가능). 데이터 집합에서 PageRank 알고리즘을 실행하고 싶지만 매우 잘 문서화되어 있지 않기 때문에 데이터를 구문 분석 할 수 없습니다.위키 백과 Pagelink 데이터 세트

이것은 다운로드 한 데이터 세트의 샘플입니다. 주어진 필드는 p1_from, p1_namespace 및 p1_title입니다. 온라인으로 볼 때 p1_namespace는 기사 유형을 나타내는 숫자이지만 p1_from이 무엇인지는 알지 못합니다. PageRank 알고리즘을 구현하기 위해 특정 기사에 링크 된 기사의 수를 원하지만 p1_from이 무엇인지 의미하지는 않습니다. 그것의 이름으로, 저것은 그 기사에서 멀리가는 연결의 수인처럼 소리가 난다, 다른 방법 주변에. 이 경우인가요? 또한 데이터가있는 경우 그래프를 어떻게 반전시킬 수 있습니까? 올바른 숫자를 찾을 수 있습니다.

DROP TABLE IF EXISTS `pagelinks`; 
/*!40101 SET @saved_cs_client  = @@character_set_client */; 
/*!40101 SET character_set_client = utf8 */; 
CREATE TABLE `pagelinks` (
    `pl_from` int(8) unsigned NOT NULL DEFAULT '0', 
    `pl_namespace` int(11) NOT NULL DEFAULT '0', 
    `pl_title` varbinary(255) NOT NULL DEFAULT '', 
    UNIQUE KEY `pl_from` (`pl_from`,`pl_namespace`,`pl_title`), 
    KEY `pl_namespace` (`pl_namespace`,`pl_title`,`pl_from`) 
) ENGINE=InnoDB DEFAULT CHARSET=binary; 
/*!40101 SET character_set_client = @saved_cs_client */; 

-- 
-- Dumping data for table `pagelinks` 
-- 

/*!40000 ALTER TABLE `pagelinks` DISABLE KEYS */; 
INSERT INTO `pagelinks` VALUES (10,0,'Computer_accessibility'),(12,0,'-ism'),(12,0,'1848_Revolution'),(12,0,'1917_October_Revolution'), 

(12,0,'1919_United_States_anarchist_bombings'),(12,0,'19th_century_philosophy'), 
(12,0,'6_February_1934_crisis'),(12,0,'A._K._Press'),(12,0,'A._S._Neill'),(12,0,'AK_Press'),(12,0,'A_Greek–English_Lexicon'),(12,0,'A_Language_Older_Than_Words'), 
(12,0,'A_Vindication_of_Natural_Society'),(12,0,'A_las_Barricadas'),(12,0,'Abbie_Hoffman'),(12,0,'Absolute_idealism'),(12,0,'Abstentionism'),(12,0,'Action_theory_(philosophy)'), 
(12,0,'Adam_Smith'),(12,0,'Adolf_Brand'),(12,0,'Adolf_Hitler'),(12,0,'Adolphe_Thiers'),(12,0,'Aesthetic_emotions'),(12,0,'Aesthetics'),(12,0,'Affinity_group'),(12,0,'Affinity_groups'), 
(12,0,'African_philosophy'),(12,0,'Against_Civilization:_Readings_and_Reflections'),(12,0,'Against_His-Story,_Against_Leviathan'),(12,0,'Age_of_Enlightenment'),(12,0,'Agriculturalism'), 
(12,0,'Agriculture'),(12,0,'Al-Ghazali'),(12,0,'Alain_Badiou'),(12,0,'Alain_de_Benoist'),(12,0,'Albert_Camus'),(12,0,'Albert_Libertad'),(12,0,'Albert_Meltzer'),(12,0,'Aleister_Crowley'), 
(12,0,'Alex_Comfort'),(12,0,'Alexander_Berkman'),(12,0,'Alexandre_Christoyannopoulos'),(12,0,'Alexandre_Skirda'),(12,0,'Alfredo_M._Bonanno') 

답변

3

나는 그것을 매우 잘 설명되지 않기 때문에 데이터를 구문 분석 할 수 없습니다입니다.

SQL 덤프에는 MediaWiki에서 사용하는 MySQL 테이블의 데이터가 직접 포함됩니다. 해당 테이블은 mediawiki.org에 문서화되어 있으며, 귀하의 경우에는 the pagelinks table입니다.

주어진 필드는 p1_from, p1_namespace 및 p1_title입니다.

아니오, 즉 (1) (수 중 하나), 그것이 L (문자 L)이다,이 plpagelinks 대한 짧은 아니다.

p1_from이 무엇인지 알 수 없습니다. 문서에서

, 즉 "링크를 포함하는 페이지의 페이지 ID의 열쇠."의 링크가 나오는 페이지의 이름을 확인하려면, 당신은 the page table가 필요합니다.