gensim

1열

1답변

저는 Gensim을 사용하여 크기 4의 문장을 학습하고 있으며 훈련 데이터 세트에 1192 개의 고유 단어가 있습니다. 모델 len (model.vocab)의 단어 수는 141이지만 의미가 없습니다. 이것을 볼 어떤 이유가 있습니까? 교육에서 모든 단어에 대한 핵심을 갖도록 모델을 어떻게 변경할 수 있습니까? 모델은 = Word2Vec (창, min_cou

6열

1답변

gensim : 맞춤 유사성 측정

gensim을 사용하여 문서 목록 내에서 유사성을 계산하고 싶습니다. 이 라이브러리는 내가 가지고있는 데이터의 양을 처리하는 데 우수합니다. 문서는 모두 타임 스탬프로 축소되었으며 함수를 비교하려면 time_similarity이 필요합니다. 그러나 gensim은 코사인 유사성을 사용합니다. 누군가가 이전에 이것을 시도했거나 다른 해결책이 있는지 궁금합니다.

0열

1답변

LDA gensim. Postgres 데이터베이스를 모든 문서의 올바른 항목 번호로 업데이트하는 방법은 무엇입니까?

데이터베이스에서 다른 문서를 가져오고 LDA (gensim)로 확인합니다.이 문서에는 어떤 종류의 숨은 주제가 들어 있는지 확인합니다. 이것은 꽤 잘 작동합니다. 내가하고 싶은 것은 가장 가능성있는 주제가 무엇인지 모든 문서에 대해 데이터베이스에 저장하는 것입니다. 그리고 무엇이 최선의 해결책인지 확신 할 수 없습니다. 예를 들어, 처음에는 text_col

1열

1답변

Gensim Doc2Vec - Doc2Vec 함수에 코퍼스 문장 전달하기

MySentences 클래스를 사용하여 디렉토리의 모든 파일에서 문장을 추출하고이 문장을 word2vec 모델에 사용합니다. 내 데이터 세트의 라벨이 지정되지 않았습니다. class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __it

1열

1답변

Doc2Vec은 감정 분석에 적합합니까?

저는 this과 같은 정서 분류 (분석)에 대한보다 현대적인 게시물을 읽었습니다. 내가 Doc2Vec (88 %), 를 사용하여 유사한 정확도 비율을 얻을 것을 발견 예로서 IMDB 데이터 세트 촬영 그러나 특징 추출 (91 %) 대한 트라이 그램 간단한 TFIDF의 vectoriser를 사용하여 훨씬 더 나은 결과 . 이것은 Mikolov's 2015 p

0열

1답변

Deepdict이 pyspark와 실행 gensim word2vec이

from deepdist import DeepDist from gensim.models.word2vec import Word2Vec from pyspark import SparkConf, SparkContext conf = (SparkConf() .setAppName("Work2Vec") ) sc = SparkContext(conf

0열

1답변

Gensim을 사용하여 상위 10 개 항목을 인쇄하는 방법은 무엇입니까?

공식적인 설명에서 LDA의 주제 사이에는 자연 순서가 없습니다. show_topics() 메소드의 경우 num_topics가 반환 된 경우 < = 모든 항목의 self.num_topics 하위 집합은 임의적이며 두 번의 LDA 트레이닝 실행간에 변경 될 수 있습니다. 하지만 나는 상위 10 개의 자주하는 코퍼스 주제를 찾는 경향이 있습니다. 이것을 달성하는

3열

1답변

Doc2Vec 모델 Python 3 호환성

저는 Python2로 doc2vec 모델을 교육했으며 Python3에서 사용하고 싶습니다. 내가 파이썬 3에서로드하려고 할 때 , 내가 얻을 : with open('my_doc2vec.pkl', 'rb') as inf: data = pickle.load(inf) data.save('my_doc2vec_python3.pkl') : Doc2Vec

0열

1답변

숙련 된 GloVe/word2vec 모델을 사용하여 기사에서 키워드를 추출하려면 어떻게해야합니까?

나는 ~ 5M 스페인어 기사와 함께 GloVe를 훈련 시켰습니다. 이 GloVe를 gensim에로드하고 마치 word2vec 모델 인 것처럼 사용하는 방법을 알고 있습니다. 이제 뉴스 모델에서 주제 모델링 및 키워드 추출 문제 (스페인어로)가 발생했기 때문에 훈련 된 모델을 어떻게 사용할 수 있을지 궁금합니다. 어떻게하면됩니까?

1열

1답변

gensim doc2vec의 크기 매개 변수는 무엇입니까?

doc2vec function에는 size이라는 매개 변수가 있습니다. 은 출력 벡터의 크기이고, size=400 인 경우 size=100보다 더 좋은 내용을 캡처합니다. 그러나 나는 이해하지 못한다. size은 무엇을 의미 하는가? Doc2Vec이 단어에서 얼마나 멀리 훑어보고 다음 단어를 예측할 것인가? 또는 그것이 무엇을 의미합니까? 고마워요,