k- nearest-neighbors 모드에서 FLANN (http://www.cs.ubc.ca/research/flann/)을 사용하여 거대한 숫자의 포인트 (약 백만 가지)에 스펙트럼 클러스터링을 적용하기 위해 스파 스 유사 매트릭스를 작성합니다 중간 크기 (약 20). 어떻게 대칭으로 만들 수 있습니까?
나는 (follower, follow)로 표현 된 방향 그래프를 가지고 있으며 그래프에서 새로운 에지에 대한 권장 사항을 얻으려고 Mahout을 사용하려고합니다 (일명 뒤따를 것으로 예상 됨). 이 난에서 시작 코드입니다 :이 모든 권장 동일한 점수를 얻을 출력 오는 것 같습니다 mahout recommenditembased --input input.txt
여러 언어로 된 책 모음집이 있습니다. 각 책의 부분을 유사성에 따라 서로 연결해야합니다. 유사한 서적에 대한 서적, 유사한 서장에 대한 서적 및 유사한 서 브 서브 서킷에 대한 서적을 링크해야합니다. 유사성 측정은 두 번째 챕터를 비교할 때 챕터가 속한 책이 서로 얼마나 유사한 지 확인하고 사용하는 것이 좋습니다 기준선으로. 나는이 부분을 내가 수동으로
현재 Im은 의미 (의미)에 따라 두 개의 텍스트를 비교하는 프로그램을 개발하고 있습니다. 문자열 거리를 비교하는 유용한 방법을 제공하는 lingpipe와 같은 라이브러리가 있지만 텍스트 유사성을 측정하는 가장 좋은 방법은 LSA라고 들었습니다. 텍스트 유사성을 측정하기 위해 LSA를 사용하는 것과 혼란이 있습니다. 나는 1.Two passages are
사용자 관심 분야가 많습니다 (> 10k). 각 목록은 상당히 길며 사용자의 관심 분야가 일부 포함되어 있습니다. [ '축구', '권투', '영화'..], 그리고 사용자마다 다릅니다. 따라서 데이터는 매우 고차원 적입니다. 이제 각 목록 간의 pairwise 유사성을 계산하고 싶습니다. 실제로 특정 목록에 대해 n이 임의 인 n 번째 유사한 목록을 얻고 싶
나는 범주 적 (명목상과 서수) 및 숫자 속성을 모두 포함하는 데이터 집합이 있습니다. 나는 이러한 혼합 된 속성을 사용하여 내 관측을 가로 지르는 (dis) 유사성 행렬을 계산하려고합니다. 다음과 같이 R의 클러스터 패키지의 daisy() 기능을 사용하여, 나는 쉽게 유사성 행렬을 얻을 수 있습니다 : if(!require("cluster")) { ins
짧은 소개 : mysql/mssql 데이터베이스에서 실행되는 뮤직 스튜디오 프로그램으로 노래 테이블에서 임의로 곡을 선택합니다. 문제 : 동일한 노래가 여러 CD에 있기 때문에 같은 노래가 여러 번 선택 될 수 있습니다. 큰 질문 : 이름이 항상 정확히 동일하지 않기 때문에이를 피하는 방법. 노래를 선택할 때 적용되어야 (다른 규칙 :. X 분 이상 Las
단어 목록 L1이 있고 B1, B2 .., Bn과 같은 후보 목록이 있습니다. 모든 목록의 길이는 같습니다. 그러나 그들은 같은 요소를 가지고 있지 않습니다. 목록에 반복되는 요소가 없습니다. L1은 B1, B2 ... Bn 중 하나와 가장 유사합니다. 어떤 상관 알고리즘을 L1에 적용 할 수 있습니까? 잠재적 인 알고리즘 중 일부는 편집 거리, 상관 관계