독일어 위키 백과에 대한 Word2vec C++ 교육

나는 word2vec의 C 버전 (https://code.google.com/archive/p/word2vec/에 있음)을 사용하고 있으며 독일어 버전의 Wikipedia (약 17GB 원시 텍스트, ~ 1.4B 단어)의 필터링 된 덤프에 대해 교육하고 있습니다. 나는 다음과 같은 설정을 사용하고 있습니다 :독일어 위키 백과에 대한 Word2vec C++ 교육

-cbow 1 -size 300 -window 5 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15 -min-count 1000

결과 출력 파일 ~ 5 만 단어를 포함하고, 그러나 그들 중 누구도, ä ö, ü 또는 ß을 문자를 포함하지 않습니다. 나는 word2vec가 그 글자로 된 단어를 포함하는 작은 코퍼스를 만들어서 처리 할 수 있다는 것을 확인했으며, 출력물에 나타났습니다.

이러한 문자가 포함 된 단어가 출력 파일에 나타나지 않는 원인은 무엇입니까? 그것은 어떻게 든 코퍼스의 큰 크기 또는 내가 사용하고있는 설정과 관련이 있습니까?

2017-03-03 filkata

코퍼스 크기와 관련이 없어야합니다. 필자는 Wikipedia 덤프와 독일어 뉴스 기사 (어휘의 600k 단어)에서 비슷한 설정으로 독일어 모델 (아래 링크 참조)을 훈련 시켰고 독일어 움라우트가있는 단어에 대한 단어 벡터도 생성했습니다. 당신이 할 수있는

것들 :

2018-01-24 11:06:19 andreas

답변