2017-11-08 3 views
0

word2vec 모델 (음 샘플링을 사용한 스킵 그램)을 만들려고하면 다음과 같이 3 개의 파일을 출력으로 받았습니다. 이것이 내가 하나 개의 모델 (NO NPY 파일)을받은 word2vec 내 이전 테스트 예제로 발생하는 이유여러 모델 파일이 왜 gensim word2vec에서 생성됩니까?

word2vec (File) 
word2vec.syn1nef.npy (NPY file) 
word2vec.wv.syn0.npy (NPY file) 

난 그냥 걱정입니다.

도와주세요.

답변

2

내부 벡터 배열이 더 큰 모델은 Python 'pickle'을 통해 단일 파일로 저장할 수 없으므로 특정 임계 값을 넘어서는 gensim save() 메소드는보다 효율적인 raw를 사용하여 보조 파일을 별도의 파일에 저장합니다 numpy 배열 형식 (.npy 형식).

여전히 load() 루트 모델 파일 이름을 지정하여 모델을 만들 수 있습니다. 자회사 배열이 필요할 때로드 코드는 루트 파일 옆에 보관되는 한 사이드 파일을 찾습니다. 따라서 모델을 다른 곳으로 옮길 때는 모든 파일을 같은 루트 파일 이름으로 유지해야합니다.

+0

멋진 답변을 많이 주셔서 감사합니다. –

+0

정확하게 파일에 개별적으로 저장된 내용을 가르쳐 주시겠습니까? –

+1

해당 정보는 소스 코드를 참조하십시오. https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/models/word2vec.py & https://github.com/RaRe-Technologies/gensim /blob/develop/gensim/models/keyedvectors.py는'syn1neg','syn0'과 별도의 파일로 저장 될 수있는 다른 속성들을 보여줍니다. – gojomo

관련 문제