나는 word2vec의 C 버전 (https://code.google.com/archive/p/word2vec/에 있음)을 사용하고 있으며 독일어 버전의 Wikipedia (약 17GB 원시 텍스트, ~ 1.4B 단어)의 필터링 된 덤프에 대해 교육하고 있습니다. 나는 다음과 같은 설정을 사용하고 있습니다 :독일어 위키 백과에 대한 Word2vec C++ 교육
-cbow 1 -size 300 -window 5 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15 -min-count 1000
결과 출력 파일 ~ 5 만 단어를 포함하고, 그러나 그들 중 누구도, ä ö, ü 또는 ß을 문자를 포함하지 않습니다. 나는 word2vec가 그 글자로 된 단어를 포함하는 작은 코퍼스를 만들어서 처리 할 수 있다는 것을 확인했으며, 출력물에 나타났습니다.
이러한 문자가 포함 된 단어가 출력 파일에 나타나지 않는 원인은 무엇입니까? 그것은 어떻게 든 코퍼스의 큰 크기 또는 내가 사용하고있는 설정과 관련이 있습니까?