2016-07-13 4 views
0
from deepdist import DeepDist 

from gensim.models.word2vec import Word2Vec 

from pyspark import SparkConf, SparkContext 

conf = (SparkConf() 
    .setAppName("Work2Vec") 
) 

sc = SparkContext(conf=conf) 
corpus = sc.textFile('AllText.txt').map(lambda s: s.split()) 

def gradient(model, sentences): 

    syn0, syn1 = model.syn0.copy(), model.syn1.copy() # previous weights 
    model.train(sentences) 
    return {'syn0': model.syn0 - syn01, 'syn1': model.syn1 - syn1} 


def descent(model, update): 

    model.syn0 += update['syn0'] 

    model.syn1 += update['syn1'] 


with DeepDist(Word2Vec(corpus.collect())) as dd: 

    dd.train(corpus, gradient, descent) 

    dd.model.save("Model") 

, 나는이 56GB 텍스트를 가지고 있고 word2Vec 모델을 구축하고자 제발 도와주세요 시도하지만, 사용하는 경우에만 자신의 예제 코드는 웹에서 매우 느린, 그래서 내가 deepdist 시도하고 gensim, 당신의 복사 및 붙여 넣기 코드를이 끌어 오기 요청을 수정할 수있는 오타가Deepdict이 pyspark와 실행 gensim word2vec이

script output

+0

이것은 웹 http://deepdist.com/에 대한 링크입니다. –

답변

관련 문제