0
from deepdist import DeepDist
from gensim.models.word2vec import Word2Vec
from pyspark import SparkConf, SparkContext
conf = (SparkConf()
.setAppName("Work2Vec")
)
sc = SparkContext(conf=conf)
corpus = sc.textFile('AllText.txt').map(lambda s: s.split())
def gradient(model, sentences):
syn0, syn1 = model.syn0.copy(), model.syn1.copy() # previous weights
model.train(sentences)
return {'syn0': model.syn0 - syn01, 'syn1': model.syn1 - syn1}
def descent(model, update):
model.syn0 += update['syn0']
model.syn1 += update['syn1']
with DeepDist(Word2Vec(corpus.collect())) as dd:
dd.train(corpus, gradient, descent)
dd.model.save("Model")
, 나는이 56GB 텍스트를 가지고 있고 word2Vec 모델을 구축하고자 제발 도와주세요 시도하지만, 사용하는 경우에만 자신의 예제 코드는 웹에서 매우 느린, 그래서 내가 deepdist 시도하고 gensim, 당신의 복사 및 붙여 넣기 코드를이 끌어 오기 요청을 수정할 수있는 오타가Deepdict이 pyspark와 실행 gensim word2vec이
이것은 웹 http://deepdist.com/에 대한 링크입니다. –