latent-semantic-analysis

2열

1답변

현재 Im은 의미 (의미)에 따라 두 개의 텍스트를 비교하는 프로그램을 개발하고 있습니다. 문자열 거리를 비교하는 유용한 방법을 제공하는 lingpipe와 같은 라이브러리가 있지만 텍스트 유사성을 측정하는 가장 좋은 방법은 LSA라고 들었습니다. 텍스트 유사성을 측정하기 위해 LSA를 사용하는 것과 혼란이 있습니다. 나는 1.Two passages are

0열

1답변

tf-idf의 수식은 gensim의 LSA 모델을 사용합니까?

tf와 idf를 계산할 수있는 다양한 방법이 있습니다. LSA 모델에서 gensim이 어떤 수식을 사용하는지 알고 싶습니다. 나는 소스 코드 lsimodel.py을 살펴 보았지만 문서 - 용어 행렬이 만들어지는 곳은 분명하지 않다. (아마 메모리 최적화 때문에). 가 one LSA paper에서 I 문서 기간 행렬의 각각의 셀은 그 단어의 엔트로피로 나누어

0열

1답변

SparseVectorsFromSequenceFiles의 메모리 구현이 있는가, 내가지도를 실행 두싯에 의해 제공되는 <code>SparseVectorsFromSequenceFiles</code>, <code>RowIdJob</code> 및 <code>RowSimilarityJob</code> 하둡 작업을 사용하여 잠재 의미 분석을 수행하는 방법에 대한 일한지

RowIdJob 및 RowSimilarityJob 작업/작업을 줄일 수 있습니다. 나는 메모리에서 실행되는 이러한 기능을 단일 스레드 또는 바람직하게는 다중 스레드에서 실행하는 등가 구현을 찾으려고 노력했습니다. 그런 것이 있습니까?

0열

1답변

LSA 유사 인터페이스

저는 번역학 박사 과정 학생이며 현재 논문을 공부하고 있습니다. 나는 논문에서 분석 방법으로 LSA Similarity 인터페이스를 사용하고있다. 내 배경은 컴퓨터 과학이 아니라 언어학에 있습니다. 나는 쉬운 LSA 문서 카테고리 분류 도구를 찾으려고했지만 어떤 것도 찾을 수 없었다. 나는 Gensim으로 노는 것을 시도했다, 나는 일하지 않았다. 내 문제

1열

1답변

행렬 인수 분해로 추천을 생성하는 방법

추천 시스템에서 행렬 계수 분해 (잠재 인자 모델)에 대한 몇 가지 논문을 읽었으며 알고리즘을 구현할 수 있습니다.이 연구 결과는 MovieLens 데이터 세트에서 설명한 것처럼 비슷한 RMSE 결과를 얻을 수 있습니다. . 그러나 내가 예상 한 등급을 평가하여 모든 사용자에 대해 최상위 K (예 : K = 10) 권장 동영상 목록을 생성하려고 시도하면 높

0열

1답변

매우 큰 데이터 세트에서 잠재 의미 분석 수행 방법

매우 큰 데이터 세트, 약 50,000 개의 문서 및 300,000 개의 단어/용어에서 LSA 또는 주성분 분석을 실행하여 문서를 그래프화할 수 있도록 차원을 줄입니다. 2-d. 파이썬과 MATLAB에서 시도했지만 시스템에 메모리가 부족하여 데이터 세트의 볼륨으로 인해 인스턴스가 충돌합니다. 누구든지 부하를 줄이거 나 더 빠르고 효율적으로 실행할 수있는 근

-2열

1답변

텍스트에서 문장 사이의 시맨틱 일관성 찾기

사이의 의미 상 유사성을 자동으로 계산하는이 링크 link1 및 link2의 코드를 기반으로 프로그램을 작성하는 데 도움이 필요합니다. 연속적인 문장 및 b. 문장은 1 개의 중재 문구, 전체 및 전체 문장 (1000 문장)으로 구분됩니다. 제공된 코드가 이미 토큰 화되어 의미 상 유사성을 찾을 수 있지만 전체 텍스트 (a, b)에 걸쳐 연속 및 "중간"문

1열

1답변

잠재 의미 분석 (LSA) LSI의 내 겸손한 이해 (기계 공학 배경)을 통해 나와 함께

곰을 이해하는 하나의 값 분해 (SVD) : : LSI에서 SVD를 수행 한 후 , 당신은 3 행렬이 U, S 및 V 전치 U는 단어를 주제와 비교하며 S는 각 기능의 강도를 측정합니다. Vt는 주제를 문서와 비교합니다. U dot S dot Vt 은 SVD 이전의 원래 매트릭스를 반환합니다. U dot S dot **Ut** 이 용어의 비교를 제공