gensim

    1

    1답변

    저는 Gensim을 사용하여 크기 4의 문장을 학습하고 있으며 훈련 데이터 세트에 1192 개의 고유 단어가 있습니다. 모델 len (model.vocab)의 단어 수는 141이지만 의미가 없습니다. 이것을 볼 어떤 이유가 있습니까? 교육에서 모든 단어에 대한 핵심을 갖도록 모델을 어떻게 변경할 수 있습니까? 모델은 = Word2Vec (창, min_cou

    6

    1답변

    gensim을 사용하여 문서 목록 내에서 유사성을 계산하고 싶습니다. 이 라이브러리는 내가 가지고있는 데이터의 양을 처리하는 데 우수합니다. 문서는 모두 타임 스탬프로 축소되었으며 함수를 비교하려면 time_similarity이 필요합니다. 그러나 gensim은 코사인 유사성을 사용합니다. 누군가가 이전에 이것을 시도했거나 다른 해결책이 있는지 궁금합니다.

    0

    1답변

    데이터베이스에서 다른 문서를 가져오고 LDA (gensim)로 확인합니다.이 문서에는 어떤 종류의 숨은 주제가 들어 있는지 확인합니다. 이것은 꽤 잘 작동합니다. 내가하고 싶은 것은 가장 가능성있는 주제가 무엇인지 모든 문서에 대해 데이터베이스에 저장하는 것입니다. 그리고 무엇이 최선의 해결책인지 확신 할 수 없습니다. 예를 들어, 처음에는 text_col

    1

    1답변

    MySentences 클래스를 사용하여 디렉토리의 모든 파일에서 문장을 추출하고이 문장을 word2vec 모델에 사용합니다. 내 데이터 세트의 라벨이 지정되지 않았습니다. class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __it

    1

    1답변

    저는 this과 같은 정서 분류 (분석)에 대한보다 현대적인 게시물을 읽었습니다. 내가 Doc2Vec (88 %), 를 사용하여 유사한 정확도 비율을 얻을 것을 발견 예로서 IMDB 데이터 세트 촬영 그러나 특징 추출 (91 %) 대한 트라이 그램 간단한 TFIDF의 vectoriser를 사용하여 훨씬 더 나은 결과 . 이것은 Mikolov's 2015 p

    0

    1답변

    from deepdist import DeepDist from gensim.models.word2vec import Word2Vec from pyspark import SparkConf, SparkContext conf = (SparkConf() .setAppName("Work2Vec") ) sc = SparkContext(conf

    0

    1답변

    공식적인 설명에서 LDA의 주제 사이에는 자연 순서가 없습니다. show_topics() 메소드의 경우 num_topics가 반환 된 경우 < = 모든 항목의 self.num_topics 하위 집합은 임의적이며 두 번의 LDA 트레이닝 실행간에 변경 될 수 있습니다. 하지만 나는 상위 10 개의 자주하는 코퍼스 주제를 찾는 경향이 있습니다. 이것을 달성하는

    3

    1답변

    저는 Python2로 doc2vec 모델을 교육했으며 Python3에서 사용하고 싶습니다. 내가 파이썬 3에서로드하려고 할 때 , 내가 얻을 : with open('my_doc2vec.pkl', 'rb') as inf: data = pickle.load(inf) data.save('my_doc2vec_python3.pkl') : Doc2Vec

    0

    1답변

    나는 ~ 5M 스페인어 기사와 함께 GloVe를 훈련 시켰습니다. 이 GloVe를 gensim에로드하고 마치 word2vec 모델 인 것처럼 사용하는 방법을 알고 있습니다. 이제 뉴스 모델에서 주제 모델링 및 키워드 추출 문제 (스페인어로)가 발생했기 때문에 훈련 된 모델을 어떻게 사용할 수 있을지 궁금합니다. 어떻게하면됩니까?

    1

    1답변

    doc2vec function에는 size이라는 매개 변수가 있습니다. 은 출력 벡터의 크기이고, size=400 인 경우 size=100보다 더 좋은 내용을 캡처합니다. 그러나 나는 이해하지 못한다. size은 무엇을 의미 하는가? Doc2Vec이 단어에서 얼마나 멀리 훑어보고 다음 단어를 예측할 것인가? 또는 그것이 무엇을 의미합니까? 고마워요,