현재 Im은 의미 (의미)에 따라 두 개의 텍스트를 비교하는 프로그램을 개발하고 있습니다. 문자열 거리를 비교하는 유용한 방법을 제공하는 lingpipe와 같은 라이브러리가 있지만 텍스트 유사성을 측정하는 가장 좋은 방법은 LSA라고 들었습니다. 텍스트 유사성을 측정하기 위해 LSA를 사용하는 것과 혼란이 있습니다. 나는 1.Two passages are
tf와 idf를 계산할 수있는 다양한 방법이 있습니다. LSA 모델에서 gensim이 어떤 수식을 사용하는지 알고 싶습니다. 나는 소스 코드 lsimodel.py을 살펴 보았지만 문서 - 용어 행렬이 만들어지는 곳은 분명하지 않다. (아마 메모리 최적화 때문에). 가 one LSA paper에서 I 문서 기간 행렬의 각각의 셀은 그 단어의 엔트로피로 나누어
저는 번역학 박사 과정 학생이며 현재 논문을 공부하고 있습니다. 나는 논문에서 분석 방법으로 LSA Similarity 인터페이스를 사용하고있다. 내 배경은 컴퓨터 과학이 아니라 언어학에 있습니다. 나는 쉬운 LSA 문서 카테고리 분류 도구를 찾으려고했지만 어떤 것도 찾을 수 없었다. 나는 Gensim으로 노는 것을 시도했다, 나는 일하지 않았다. 내 문제
추천 시스템에서 행렬 계수 분해 (잠재 인자 모델)에 대한 몇 가지 논문을 읽었으며 알고리즘을 구현할 수 있습니다.이 연구 결과는 MovieLens 데이터 세트에서 설명한 것처럼 비슷한 RMSE 결과를 얻을 수 있습니다. . 그러나 내가 예상 한 등급을 평가하여 모든 사용자에 대해 최상위 K (예 : K = 10) 권장 동영상 목록을 생성하려고 시도하면 높
매우 큰 데이터 세트, 약 50,000 개의 문서 및 300,000 개의 단어/용어에서 LSA 또는 주성분 분석을 실행하여 문서를 그래프화할 수 있도록 차원을 줄입니다. 2-d. 파이썬과 MATLAB에서 시도했지만 시스템에 메모리가 부족하여 데이터 세트의 볼륨으로 인해 인스턴스가 충돌합니다. 누구든지 부하를 줄이거 나 더 빠르고 효율적으로 실행할 수있는 근
사이의 의미 상 유사성을 자동으로 계산하는이 링크 link1 및 link2의 코드를 기반으로 프로그램을 작성하는 데 도움이 필요합니다. 연속적인 문장 및 b. 문장은 1 개의 중재 문구, 전체 및 전체 문장 (1000 문장)으로 구분됩니다. 제공된 코드가 이미 토큰 화되어 의미 상 유사성을 찾을 수 있지만 전체 텍스트 (a, b)에 걸쳐 연속 및 "중간"문
곰을 이해하는 하나의 값 분해 (SVD) : : LSI에서 SVD를 수행 한 후 , 당신은 3 행렬이 U, S 및 V 전치 U는 단어를 주제와 비교하며 S는 각 기능의 강도를 측정합니다. Vt는 주제를 문서와 비교합니다. U dot S dot Vt
은 SVD 이전의 원래 매트릭스를 반환합니다. U dot S dot **Ut**
이 용어의 비교를 제공