2

나는 분산되고 정규화되지 않은 완전히 공개 된 사용자 제출 태그에서 벗어나 의미 론적 의미와 결합하여 모든 것을 이해하기 시작하는 방법에 대한 토론을 주로 찾고있다. 그룹을 "클러스터"라고 부릅니다.flickr의 태그 클러스터링 시스템을 구현하는 방법에 대한 아이디어가 있습니까? (레일즈에서 선호)

실제 사람들이 사용하는 태그가 실제로 무엇을 의미하는지 파악할 수 있습니까? 아니면 태그가 함께 사용되는 빈도를 자동으로 분석하여 간단히 수행 할 수 있습니까?

그런 종류의 물건. 사납게 정교하게 자유롭게해라. :) (또한, 다른 곳에서 논의 된 적이 있다면, 그것에 대해 듣고 싶다.)

답변

3

이 기사를 읽으십시오 : Automated Tag Clustering. 기존 접근법에 대한 개요를 제공하고 태그 클러스터링을위한 알고리즘을 설명합니다.

+0

정확히 내가 찾던 일종의 고마워요! –

+0

제공된 링크가 더 이상 작동하지 않습니다. [이 링크] (http://tagging.pui.ch/automated_tag_clustering)는 언급 된 기사를 나타내는 것으로 보입니다. – martin

1

Algorithms of the Intelligent Web (Manning) (특히 4 장)과 O'Reilly의 비슷한 제목의 책은 클러스터링 알고리즘을 다룹니다. Manning book은 순진한 SQL 접근 방식으로 시작하여 K-means, ROCK 및 DBSCAN으로 이동합니다. 태그에 초점을 맞추는 것보다 더 일반화되었지만 그 맥락에서 적용하기 쉽습니다. 코드는 Java로 표시되지만 Ruby에 쉽게 적용됩니다 (때로는 Java 코드를 문제에 적용하는 것보다 쉽습니다).

제 5 장은 토폴로지 작성에 대한 분류 및 베이지안 알고리즘에 대해 설명합니다.

관련 문제